一个网站两个域名备案,自己做网站卖机器设备,网站菜单怎么做,四大工业设计软件本文是LLM系列文章#xff0c;针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。 大型语言模型真的对单词级扰动具有鲁棒性吗#xff1f; 摘要1 引言2 相关工作3 合理稳健性评价的奖励模型#xff08;TREvaL#xff09;4 LLM的词级…本文是LLM系列文章针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。 大型语言模型真的对单词级扰动具有鲁棒性吗 摘要1 引言2 相关工作3 合理稳健性评价的奖励模型TREvaL4 LLM的词级鲁棒性评价5 讨论6 结论7 局限性 摘要
大型语言模型LLM的规模和功能的迅速发展使其成为各种下游任务的有前途的工具。除了追求更好的性能和避免对某个提示的暴力反馈外为了确保LLM的责任LLM的稳健性也受到了关注。然而现有的评估方法大多依赖于具有预定义监督标签的传统问答数据集这与当代LLM的优越生成能力不符。为了解决这个问题我们提出了一种新的理性评估方法该方法利用预先训练的奖励模型作为诊断工具来评估LLM从更具挑战性的开放问题中产生的较长对话我们称之为合理稳健性评估的奖励模型TREvaL。较长的对话表明就理解问题的熟练程度而言他们对语言模型的全面掌握而这一能力并不完全包含在单个单词或字母中这可能表现出过于简单化和固有的偏见。我们广泛的经验实验表明TREvaL为评估LLM的稳健性提供了一种创新的方法。此外我们的研究结果表明LLM经常表现出对日常语言使用中常见的单词级扰动的脆弱性。值得注意的是我们惊讶地发现随着微调SFT和RLHF的进行鲁棒性往往会降低。TREvaL的代码可在https://github.com/Harry-mic/TREvaL上找到。
1 引言
2 相关工作
3 合理稳健性评价的奖励模型TREvaL
4 LLM的词级鲁棒性评价
5 讨论
6 结论
在本文中我们引入了第一个开放问题基准合理稳健性评估的奖励模型TREvaL来评估LLM的稳健性。我们进行了全面的实验来研究这个问题并证明现有的LLM不够稳健是一个真实的命题。此外我们还发现在整个微调过程中模型的稳健性有所下降。为了验证我们的发现我们描绘了Beaver不同阶段的景观并证实了我们的推测。我们指出了改进SFT和RLHF训练范式以确保新LLM代的稳定性以及注意膨胀参数的影响的重要性。为了促进该领域的进一步探索我们在GitHub Repo中开源了我们的代码和选定的数据集。
7 局限性
奖励模型奖励模型只是人类意图的一个缩影。不管奖励模型的大小它不可避免地与人类的意图存在一定程度的偏差。然而一个无可争议的事实仍然存在奖励模型的能力越强它就越能符合人类的意图。因此我们选择尽可能大的奖励模型作为我们的评估者。然而随着大型语言模型LLM的不断发展不可避免地会出现更大、更优秀的开源奖励模型。 数据集本研究中使用的开放式问题经过仔细选择。然而这些问题的数量及其分布仍然有限。 扰动本研究中的扰动程度分为三个层次。然而要获得更精确的结果就必须采用更高水平的扰动严重性。此外单词级扰动的格式也是有限的。除了拼写错误、交换和同义词替换之外还应该考虑其他格式。 无害鲁棒性值得注意的是我们进行的扰动不会导致无害鲁棒性的不稳定性。其中一个原因是扰动是为了评估有用性的稳健性而不是使用技术来诱导模型产生毒性反应。因此在评估无害稳健性时我们的方法可能还不够准确和有力。随后的努力可能包括制定明确定制的攻击方法以增强无害性的稳健性。