网站上传在空间哪里,wordpress分类自定义title,免费照片编辑器,上海新站专家网络公司本文是LLM系列的文章#xff0c;针对《Enabling Large Language Models to Generate Text with Citations》的翻译。  使大语言模型能够生成带有引用的文本 摘要1 引言2 任务设置和数据集3 自动评估4 建模5 实验6 人类评估7 相关工作8 结论不足 摘要 
大型语言模型#xff08…本文是LLM系列的文章针对《Enabling Large Language Models to Generate Text with Citations》的翻译。  使大语言模型能够生成带有引用的文本 摘要1 引言2 任务设置和数据集3 自动评估4 建模5 实验6 人类评估7 相关工作8 结论不足 摘要 
大型语言模型LLM已成为一种广泛使用的信息搜索工具但其生成的输出容易产生幻觉。在这项工作中我们的目标是使LLM能够生成带有引用的文本提高其事实的正确性和可验证性。现有的工作主要依赖于商业搜索引擎和人类评估这使得复制和比较不同的建模方法具有挑战性。我们提出了ALCE这是LLM自动引文评估的第一个基准。ALCE收集了一组不同的问题和检索语料库需要建立端到端的系统来检索支持证据并生成带有引文的答案。我们建立了三个维度的自动指标——流利性、正确性和引用质量——并证明了它们与人类判断的强烈相关性。我们用最先进的LLM和新颖的提示策略进行的实验表明当前的系统有相当大的改进空间——例如在ELI5数据集上即使是最好的模型其49%的生成都缺乏完整的引用支持。我们的广泛分析进一步突出了有前景的未来方向包括开发更好的检索器推进长上下文LLM以及提高综合来自多个来源的信息的能力。 
1 引言 
2 任务设置和数据集 
3 自动评估 
4 建模 
5 实验 
6 人类评估 
7 相关工作 
8 结论 
我们提出了ALCE这是第一个用引文评估LLM生成的自动基准。我们部署了自动指标来衡量流利性、正确性和引用质量并通过人工评估验证其有效性。我们探索了将引文纳入LLM的各种策略并证明当前的系统在ALCE方面有相当大的改进空间。 我们的实验突出了许多有前景的研究方向包括1增强LLM中的检索和改进检索集成2开发长上下文LLM以及3提高LLM合成多种来源的能力。更有趣的是这些研究建议超出了ALCE的设置范围例如长上下文LLM有许多令人兴奋的应用ALCE可以作为其开发的宝贵试验台。 
不足 
我们的评估并非没有缺陷1MAUVE被发现对输出长度敏感可能会提供不稳定的结果。2 对于ELI5的正确性评估由于问题的开放性自动生成的声明可能无法涵盖所有可能的答案。3 我们的引文质量评估受到NLI模型准确性的限制对于引用精度NLI模型无法检测到“部分支持”的情况因此导致引用精度得分低于人类评估。 尽管我们相信我们策划的数据集与现实世界用户问题的分布非常相似但我们也承认它们没有涵盖更具挑战性的场景如多跳推理、数学推理和代码完成。 在我们的实验中我们专注于在不更新LLM模型权重的情况下提示LLM。由于缺乏监督数据直接训练模型以纳入引文仍然具有挑战性。然而我们观察到某些人类指令数据集包含与我们的任务设置类似的示例。我们将训练LLM去生成引文的探索留给未来工作。