当前位置：首页 > news >正文

万域网站建设保定八大平台公司

news 2026/1/9 11:18:42

万域网站建设,保定八大平台公司,国产在线做a视频网站,dedecms网站地图制作学习教授LLM逻辑推理摘要1 引言2前言2.1事件关系提取2.2 演绎推理 3 揭示逻辑推理中的LLMS3.1 LLM如何执行任务3.1.1数据源3.1.2实验装置3.1.3 分析 3.2 LLM如何执行抽象多跳推理#xff1f;3.2.1数据来源3.2.2 实验装置。3.2.3 分析。 4 逻辑推理教学4.1 LLM的上下文学习4.2… 学习教授LLM逻辑推理摘要1 引言2前言2.1事件关系提取2.2 演绎推理 3 揭示逻辑推理中的LLMS3.1 LLM如何执行任务3.1.1数据源3.1.2实验装置3.1.3 分析 3.2 LLM如何执行抽象多跳推理3.2.1数据来源3.2.2 实验装置。3.2.3 分析。 4 逻辑推理教学4.1 LLM的上下文学习4.2 基于生成的方法4.2.1 结果 4.3 基于检索的方法4.3.1主要结果4.3.2消融研究 4.4 基于预训练的方法4.4.1 预培训细节4.4.2结果4.4.3案例研究摘要大型语言模型LLM由于其卓越的语言生成能力和极强的泛化能力而受到学术界和工业界的极大关注。然而当前的LLM仍然会输出不可靠的内容由于其固有的问题例如幻觉。为了更好地解开这个问题在本文中我们进行了深入的调查系统地探讨LLM在逻辑推理的能力。更详细地说我们首先调查LLM在逻辑推理的不同任务上的缺陷包括事件关系提取和演绎推理。我们的研究表明LLM在解决具有严格推理的任务时表现不佳甚至会产生反事实的答案这需要我们迭代地改进。因此我们全面探索不同的策略赋予LLM逻辑推理能力从而使他们能够在不同的场景中生成逻辑上更一致的答案。基于我们的方法我们还贡献了一个综合数据集LLM-LR涉及多跳推理的评估和预训练。通过对不同任务的大量定量和定性分析验证了逻辑教学的有效性和必要性为今后运用逻辑教学解决实际任务提供了借鉴。 1 引言最近大型语言模型(LLM)在许多不同的下游任务中取得了令人难以置信的进展如GPT-3、ChatGPT和Llama。这些模型通常在过滤的网络数据和精选的高质量语料库(例如社交媒体对话、书籍或技术出版物)的组合上进行培训。研究表明LLM的涌现能力可以显示出很有前途的推理能力而精选过程对于产生它们的零概率泛化能力是必要的。尽管取得了这些显著的成就但目前的LLM在流畅和可靠地生成高质量内容方面仍然存在一些问题。一个好的内容生成器应该产生逻辑上一致的答案这些答案对于给定或先前的约束是合理的。然而在处理需要严格逻辑推理的实际任务时LLM有时会输出反事实。如图1所示ChatGPT预测事件“FIRE”和“collapsed”之间的时间和因果关系是“simultaneous”和“cause”。根据先前的逻辑约束即使在阅读上下文之前我们也可以很容易地断言预测并不完全正确因为在语义方面“simultaneous”和“cause”相互冲突。一些著作将这些现象归因于其固有的缺陷(如幻觉、不忠)然而如何理清并提高LLMS在这些任务中的能力仍然是一个悬而未决的问题。为了深入了解LLMS在逻辑推理方面的不足并探索相应的解决方案本文从多个维度对LLMS在解决推理任务方面进行了深入的研究。我们首先在两个实际场景中对LLMS的性能进行了评估包括事件关系提取和演绎推理任务两者都需要严格的推理能力来推断。我们的实验结果表明 1即使是最先进的LLM仍然会产生大量不一致的答案例如如图2所示在MAVEN-ERE 数据集上来自ChatGPT的超过60%的答案在逻辑上是不一致的;2思想链CoT提示如“让我们一步一步思考”可以刺激LLM的推理能力。然而一些固有的问题例如幻觉、不忠实将导致这种生成的基本原理不可靠或不一致;3向LLM提供相关逻辑提高了性能但是注入不相关逻辑会引起结果的波动。因此如何获得相关逻辑并将其信息注入LLM是一个重要的问题值得进一步探索;4为了验证LLM用于更复杂推理的能力我们提供了一个合成数据集即LLM-LR进行评估这涉及逻辑推理的多跳。LLM-LR是通过在我们收集的逻辑约束上应用逻辑编程自动构建的它可以提供具有任意跳数的逻辑推理实例。结果表明随着逻辑跳数的增加2 ~ 10跳LLM很难输出正确答案逻辑不一致答案的比例稳步上升。这表明当推理变得更加抽象和复杂时LLM的表现会更差。因此如何缓解上述问题使LLM具有更强大的逻辑推理能力是我们的论文的关键点。基于这些发现我们提出了一系列的解决方案教LLM生成具有更好的逻辑一致性的答案。本文根据逻辑习得的途径将LLM逻辑推理教学分为三种不同的教学模式 1生成型教学模式它鼓励LLM在CoT提示的启发下自己生成推理原理。在这个范例下我们发现将逻辑约束纳入LLM指令将带来实质性的改进但所生成的理由的不确定性也可能带来一些偏见导致不正确的后续答案;2基于检索的方法提供我们手动设计的逻辑约束然后检索相关内容并将其添加到LLM指令。这种方法确保了逻辑约束的正确性并显着提高了性能但需要一些手工制作的工程;3基于预训练的方法使用我们之前介绍的策展数据集LLM-LR来训练LLM执行复杂的逻辑推理。预训练数据集由6776个实例组成包含2 ~ 5跳的逻辑推理。这种策略固有地将逻辑编码在模型参数中同时还需要额外的训练时间。因此如何选择最合适的策略可以是一个权衡的基础上的实际情况。此外基于上述框架我们还对不同的任务进行了大量的定量和定性分析以验证逻辑教学的有效性并为未来的工作提供启示 1我们研究了是否在获得结果之前或之后添加逻辑约束并发现直接将约束传递给LLM比根据结果添加后处理操作更有效;2与使用更多演示的设置相比将逻辑约束纳入提示可以用更少的演示实现更好的性能。这一现象进一步表明它是重要的教导LLM平衡演示和逻辑约束;3受益于LLM强大的交互能力我们可以进一步提高性能通过迭代检索增强多轮会话。然而当有太多的迭代时LLM可能会有过度思考的问题-更多无用和冗余的信息会干扰它们的预测;4当在LLM-LR上训练时LLM如LlaMA 2-13B可以实现更好的性能甚至超过更大的LLM例如ChatGPT175 B这验证了我们策划的数据集的有效性。总体而言我们的论文的贡献可以总结如下我们提供了一个深入的调查目前的LLM在解决实际任务的逻辑不一致的问题并指出LLM在利用逻辑的不足。为了提高LLM生成的内容的可靠性我们提出了几种解决方案来整合相关逻辑。基于我们的方法我们构建了一个合成数据集LLM-LR涉及多跳推理。通过利用LLM-LR我们赋予专门的LLM逻辑推理能力这增强了LLM生成逻辑上更一致的答案。不同任务的实验结果与定量和定性分析验证了我们的调查在赋予LLM逻辑推理能力方面的重要性。 2前言在本节中我们首先介绍本文主要探讨的两个任务。 2.1事件关系提取事件关系提取ERE旨在识别关系即共指、时间、因果和子事件。传统上它可以被公式化为多标签分类问题为每个关系类型确定一个标签。与其他常见任务相比ERE任务应该更多地考虑事件关系之间的逻辑约束例如图1中的约束并保证预测应符合这些约束以避免反事实。因此我们需要在预测过程中严格考虑每个事件对之间的逻辑约束。为了更好地评估能力的LLM的ERE任务我们制定了逻辑一致性评估。逻辑一致性在理解事件之间的关系中起着至关重要的作用。为了评估逻辑一致性我们收集了一个全面的集合包括两个事件之间所有关系的11个逻辑约束如表4所示。基于这些逻辑约束我们引入逻辑不一致性度量即LI测量LLM在ERE任务上的能力。具体地对于LLM的答案逻辑不一致性被计算为冲突数量的比率即与给定逻辑约束冲突的答案到组合总数即每两个关系的所有组合。为了更好地说明逻辑不一致性的计算这里我们介绍一个例子如图1所示如果LLM输出两个事件之间的关系为 “NO_COREFERENCESIMULTANEOUSCAUSENO_SUBEVENT” 。其中基于我们已经定义的逻辑约束“SIMULTANEOUS”和“CAUSE”被确定为相互冲突导致一个单一的冲突。现在关于组合的总数对于每对事件我们有4种类型的关系(共指时间因果和子事件关系)要确定。这些关系之间的总组合使用组合公式计算4 *4−1/2 6。因此两个事件之间的关系有6种可能的组合。因此该示例中的逻辑不一致性被计算为LI 1/6或大约16.7%。显然给定逻辑约束可以设计算法来自动检测冲突并计算逻辑不一致的值。总的来说直观地说逻辑不一致性的值越小LLM可以产生的自洽和合理的答案就越多。有关此任务的更多描述见附录A。 2.2 演绎推理演绎推理通常从已知的事实和规则开始然后迭代地进行新的推理直到所需的陈述可以被证实或反驳。为了保证这些推理的准确性演绎推理的每一步都必须遵守已知的逻辑约束规则。更具体地说演绎推理中的逻辑约束通常是针对个别情况的而不是像ERE任务中那样普遍适用。因此在进行演绎推理时必须根据每个例子的不同情况和已知事实评估和应用逻辑约束以得出准确的结论。对于演绎推理的逻辑不一致性的计算我们需要人工统计LLM产生的与已知事实或规则不一致的推理过程的数量然后计算比例。 3 揭示逻辑推理中的LLMS 在本节中我们进行了一项试点研究以调查当前LLM在推理任务中的表现以及逻辑如何使LLM受益。 3.1 LLM如何执行任务 3.1.1数据源我们对MAVENERE 和ProofWriter 进行手动评估。MAVEN-ERE是用于ERE任务的统一大规模数据集该任务需要识别四种类型的关系。ProofWriter是演绎逻辑推理常用的数据集其中每个示例是一对问题目标标签选自{已证明已反驳未知}。为了采用我们的调查我们随机选择100个样本50个来自MAVEN-ERE和50个来自ProofWriter。 3.1.2实验装置我们的实验是作为一个多轮对话零样本推理利用LLM的互动能力。给定一个任务输入X我们还编写一个描述任务的提示T并让LLM通过回答给定的查询来生成输出Y。我们还在预测生成的每个答案之前添加“Let’s think step by step”这是一个简单但有效的技巧可以改善LLM的零样本推理。我们采用ChatGPT作为主干并在以下三个设置下手动检查其生成的基本原理基本版LLM即ChatGPT没有任何附加信息;LLM即ChatGPT加上最相关的即ground truth逻辑;LLM即ChatGPT加上不相关的逻辑约束。提示符示例可以在图10- 13中找到。 ground truth指的是某个问题或命题的真实、准确的答案或陈述。在逻辑推理和推断过程中ground truth是作为参考标准或基准的真实情况。LLM可以根据提供的信息和推理规则生成推断结果然后将其与ground truth进行比较以评估其准确性。 3.1.3 分析如图2所示我们可视化了micro-F1和ChatGPT生成的逻辑不一致答案的比例。我们发现无论是在MAVEN-ERE还是ProofWriter上Vanilla ChatGPT总是以低micro-F1分数和高不一致值例如15%microF1和63% MAVEN-ERE上的不一致答案这表明LLM在解决复杂推理任务时存在不足。为了深入研究这一问题我们从以下两个方面进行分析。逻辑一致性和模型性能之间的关系是什么从图2中我们发现 1当添加相关逻辑时模型直接在MAVEN-ERE和ProofWriter上获得了显著的改进; 2当添加一些无关逻辑时结果显示出一些波动MAVEN-ERE的提升和ProofWriter的退化。这意味着在没有任何约束的情况下直接添加逻辑会带来一定的不确定性; 3通常较高的逻辑不一致对应于较差的micro-F1然而纠正逻辑不一致并不一定会导致micro-F1的相同程度的增加。一般来说一个直观的观察是将相关的逻辑纳入LLM指令将非常有助于解决推理任务因此挑战在于如何获得这些相关逻辑以及如何将它们用于LLM。 LLM通常会犯哪些类型的错误为了深入了解基础版LLM在逻辑推理中遇到的失败我们还对此进行了详细的错误分析。在这里我们将错误类型分为两个方面约束不正确CE与真实的逻辑约束相比LLM生成的基本原理是错误的CE1不完整的CE2或冗余的CE3。对推理过程FE不忠LLM没有正确使用约束。我们在FE上定义两种类型的错误即i错误的开始LLM从一个不相关的事实开始或者专注于正确答案的不正确观点FE1。ii错误的过程LLM从一个适当的点开始但在推理过程中出错FE2。注释者被要求查看ChatGPT生成的100个预测并标记错误类型。图3中的结果表明 1Vanilla ChatGPT产生的约束质量不够高这限制了其后续推理能力。2)通过对相关逻辑约束的描述保证了约束的正确性从而提高了ChatGPT生成质量的忠实性。 3.2 LLM如何执行抽象多跳推理基于上述分析我们可以确认LLM在解决复杂推理任务方面的不足以及引入逻辑约束的有效性。然而我们也想探索LLM如何在更具挑战性的环境中表现出来。 3.2.1数据来源考虑到现有数据集缺乏多跳实例我们构建了一个合成数据集LLM-LR来评估LLM执行多跳推理的能力。具体来说我们首先为三个事件之间的所有高阶关系收集39个额外的逻辑约束如表7所示。该集合基于传递依赖性即一个事件可以通过中间事件影响另一个事件。例如BEFOREAB∧ BEFOREBC→ BEFOREAC表示如果事件A在事件B之前发生, 并且事件B在事件C之前发生,那么事件A在事件C之前发生。因此我们得到了一个包含总共50个逻辑约束的综合集合沿着我们在2.1节中介绍的两个事件之间的11个约束。随着事件数量的进一步增加即3涉及到更复杂的交互此时手动列出所有约束是低效的。为了解决这个问题我们引入了逻辑编程通过输入已知的约束和关系来自动生成新的事件关系。我们采用了基于前向和后向链接规则的方法利用Prolog作为我们逻辑编程方法的基础。例如当处理涉及四个事件A,B,C,D的时间关系时给定已知的关系“BEFOREAB ∧ SIMULTANEOUSBC∧ OVERTANEOUSCD我们的逻辑编程方法可以根据表7中的约束条件推导出BEFORE(C , D)的结论。然后我们提供一个任务描述并使用给定的关系作为输入案例让LLM推理事件之间的关系AD即一个3跳查询。我们可以使用表6中提供的描述文本将符号表示转换为自然语言形式。我们的逻辑引擎推导出的结论将作为地面真理检查LLM的答案。伪代码可以在附录D.1(如下)中找到提示示例在图14中。 3.2.2 实验装置。为了评估我们为每个2 ~ 10跳推理随机生成50个样本。除了ChatGPT的三个变体gpt-turbotext-davinci-003和gpt 4之外我们还使用了另外两个开源LLMVicuna 13 B-v1.31和Llama 2 - 13 B进行评估。注意 1对于2跳推理即三个事件之间的高阶关系只有39个样本。 2)我们的方法允许扩展的推理路径但我们报告的结果清晰由于长度限制的LLM仅覆盖2至10跳。 3.2.3 分析。如图4所示我们可视化了micro-F1和LLM生成的逻辑不一致答案的比例。我们可以看到 1当跳数相对较小时即2 ~ 15跳GPT-4的性能与其他机型相比表现突出。 2随着跳数的增加所有LLM的性能变差当推理变得越来越复杂逻辑不一致的答案的比例逐渐增加。其中维库纳-13 B在6跳后完全失效无法输出任何正确答案。这进一步说明了LLM逻辑推理教学的必要性。 4 逻辑推理教学基于上述分析我们期望探索如何增强LLM的逻辑推理能力。因此在本节中我们首先介绍我们在4.1节中使用的推理跟踪技术然后提出三种不同的方法来指导LLM生成具有更好逻辑一致性的答案4.2节至4.4节。 4.1 LLM的上下文学习我们通过上下文学习ICL部署LLM用于事件关系提取和演绎推理任务。给定一个任务输入我们还编写一个描述该任务的prompt然后进一步提供几个演示 {}||1 . 其中DiXiYi用于少量学习。然后LLM通过完成提示YM(T, D, X)生成输出Y其中M表示LLM。在这样的设置中LLM可以遵循所提供的演示的结构以输出预期的答案格式用于随后的自动评估。此外整个过程不需要任何梯度更新允许LLM在没有大量训练数据的情况下生成预测。比较模型。我们选择ChatGPT的三个变体gptturbo、text-davinci-003和gpt 4、维库纳-13 B-v1.3和Llama 2 - 13 B作为主要实验LLM进行评估。我们还提供了两个微调RoberTa-大基线一次样本和完全微调进行比较。RoBERTalarge的培训详情见附录B.2。数据集构建。我们的主要实验在MAVEN-ERECause-TimeBank和ProofWriter上进行了评估。对于ERE任务我们专注于两个事件之间的关系并在句子水平上进行抽样。两个事件中没有任何关系的样本将被排除。在这里我们从MAVEN-ERE的测试集中随机抽取了500个例子从Cause-TimeBank的测试集中随机抽取了100个例子作为我们的测试平台。对于演绎推理任务我们使用ProofWriter的OWA子集它被分为五个部分每个部分分别需要0123和5跳的推理。我们评估最难的5跳子集。为了降低计算成本我们在测试集中随机抽取200个样本并确保标签分布的平衡。其他详细信息见附录B.1。评价我们采用平均micro-F1分数作为评估指标并报告了ERE数据集上的逻辑不一致性定义见第2.1节。报告值由三次运行的结果平均以减少随机波动。 4.2 基于生成的方法基于生成的方法意味着我们让LLM通过使用一次性ICL的形式生成逻辑。在这里我们研究了三种变体 (1) 基础版ICL它利用由任务描述演示和输入案例组成的常见提示。 (2) 基础版ICL加CoT其首先通过使用思想链作为遵循给定演示的风格的中间推理步骤来引导基本原理然后输出答案。这里的逻辑不涉及逻辑约束的内容。 (3) CoT与自我生成的逻辑约束它教导LLM基于CoT生成和利用逻辑约束图5a。具体地说它将首先提取明显的关系/事实并根据提取的关系/事实产生相关的逻辑约束然后我们执行LLM推断其余的关系/事实的基础上的约束和已知的关系/事实。提示示例见附录H.2。 4.2.1 结果从表1中我们可以观察到与较小的语言模型SLM即Roberta-large基础版LLM在两个任务下的泛化能力单杆设置是显着的但仍然有一个完全微调基线的差距。直接使用CoT来推断逻辑对ERE任务没有太大帮助一个可能的原因是固有的问题可能导致LLM在精确的原理生成中失败即逻辑不一致的高比率。在附录E中我们给予了一个案例研究。当使用基于生成的方法来鼓励LLM在推理过程中产生逻辑约束时LLM可以显着提高它们在这两个任务上的性能。值得一提的是GPT-4CoT w.逻辑约束甚至可以超过Proofwriter数据集上完全微调的基线。 4.3 基于检索的方法虽然基于生成的方法使模型能够自动生成和利用逻辑但LLM的预测通常是不确定和不准确的。因此我们还提供了基于检索的方法旨在从我们预定义的约束中获得相关的逻辑图5b。我们主要利用收集到的逻辑约束条件在ERE任务上进行实验。具体来说我们将2.1节中收集的11个约束作为检索集我们的解决方案包括 (1) 带所有逻辑约束直接将集合中的所有11个逻辑约束相加。 (2) 与检索的逻辑约束这意味着我们首先检测逻辑上不一致的答案的基础上预测的LLM然后检索相应的信息如果我们发现任何冲突。最后我们将其添加到LLM指令中并让LLM重新生成答案。详见附录C.1。 (3) 后处理该算法首先得到LLM的答案然后根据约束条件自动生成逻辑上一致的候选项并随机选择其中一个作为最终答案。这种方法确保不存在逻辑冲突LI 0%。详情请参见附录C.2。 4.3.1主要结果从表2中我们可以观察到 1当使用基于检索的方法来获得逻辑约束并将其并入LLM指令时LLM的答案的逻辑不一致性大大降低并且两个任务的整体性能进一步提高。 2)虽然我们的后处理保证了没有逻辑冲突导致LI为0%但它可能会严重影响整个生成的质量。一方面由于随机选择后处理答案的语义可能远离地面事实。另一方面每个案例的候选集的大小也会影响性能。在后处理阶段它可能还需要更多的操作我们将其作为未来的工作。 4.3.2消融研究我们在本小节中使用ChatGPTgpt-turbo进行消融研究。示威根据以前的经验我们还将演示添加到提示符中以研究当与不同数量的演示组合时逻辑约束将如何影响。在这里我们从{151020}中选择不同数量的演示样本。试验在香草Turbo Davinci GPT-4维库纳美洲驼2号上进行ICL和ICL加上所有逻辑约束。从图6中我们可以观察到1当演示次数从1次增加到5次时我们可以观察到明显的改善但是当继续增加演示次数时后续的改善是有限的例如≥ 10; 2在LLM指令中添加逻辑约束可以提供稳定的改进特别是在更多演示的情况下。3)将逻辑约束与较少数量的演示结合的性能甚至可以超过仅具有较大数量的演示的提示的性能例如在MAVEN-ERE w.逻辑约束占25.7%超过10个无约束演示。逻辑限制24.5%。这表明告诉LLM“什么”演示和“如何”逻辑约束是很重要的。总体而言这些研究进一步证实了使用逻辑约束解决推理任务的优点。迭代检索。考虑到LLM在交互方面的突出能力我们进一步探讨是否可以在多话轮对话中引入逻辑约束提示设计见附录H.3。在这里我们采用一种基于检索的方法来迭代地合并逻辑约束结果如图6所示。我们发现答案的逻辑不一致性会随着迭代次数的增加而逐渐减少但总体微观F1似乎相对稳定。我们猜测造成这种现象的主要原因是LLM的过度思考因为虽然它可以带来更多的推理原理但在多次迭代时可能会产生正确但更无用或更丰富的信息。总的来说用逻辑指导LLM有利于对话但如何支持更长的信息仍然具有挑战性。 4.4 基于预训练的方法虽然基于检索的方法保证了逻辑约束的正确性但它仍然需要与外部集合不断交互.因此我们提供了一种基于预训练的方法来将逻辑约束嵌入LLM本身。我们使用3.2节中介绍的逻辑编程方法自动生成6776个包含所有2 ~ 5跳推理数据的实例。考虑到LLM的计算复杂度和长度限制我们在这里不生成更长的跳数进行训练。数据集统计数据见表5。然后我们训练LLM基于策展数据集LLM-LR执行复杂的逻辑推理。最后我们用训练好的LLM进行推理。训练数据的示例可以在图5c或图14中看到。 4.4.1 预培训细节我们采用维库纳-13 B-v1.3和Llama 213 B作为基础模型并采用LoRA [14]技术。在预训练期间仅优化LoRA参数。其他详细信息见附录G。 4.4.2结果如表3所示我们发现1一旦在LLM-LR上训练LlaMA 2 - 13 B和维库纳-13 B的性能与表1和表2相比有了很大的提高特别是在没有逻辑约束的基线上。2)LlaMA 2 - 13 B-PT的性能甚至可以超过一些更大的LLM例如vanilla ChatGPT175 B这进一步验证了在解决推理任务时使用逻辑教学LLM的重要性。 4.4.3案例研究在图7中我们对Llama 2 - 13 B在预训练前后对相同输入的回答进行了案例研究。从图7中我们可以看到LlaMA 2 - 13 B-PT在LLM-LR上进行预训练后可以输出正确的答案这验证了我们的预训练方法的有效性。

查看全文

http://www.huolong8.cn/news/469786/