镇江网站制作企业网站,网易163企业邮箱格式,营销技巧五步推销法,购物型网站建设笔记整理#xff1a;田玺#xff0c;浙江大学硕士研究生。研究方向#xff1a;知识图谱、自然语言处理论文地址#xff1a;https://openreview.net/forum?idDhzIU48OcZh#xff0c;录用于ICLR2022摘要之前的工作发现#xff0c;从大型语言模型#xff08;LLMs#xff… 笔记整理田玺浙江大学硕士研究生。研究方向知识图谱、自然语言处理论文地址https://openreview.net/forum?idDhzIU48OcZh录用于ICLR2022摘要之前的工作发现从大型语言模型LLMs中提取事实信息的质量取决于用于查询的Prompt但用不同的Prompt来查询相同的信息应该得到相同的答案。本文作者通过引入P-Adapters来解决这一问题一个位于LLMs的embedding层和第一个attention层之间的轻量级模型。此外作者还研究了混合专家MoE模型在从BERT和RoBERTa中提取事实信息方面P-Adapters的表现与更复杂的MoE模型相当同时不需要额外注释。最后作者研究发现是获得原始自然语言Prompt的LLM embedding特别是实体对的主语是使P-Adapters成功的重要因素。论文动机为了使LLMs成为有效的知识库它们必须对用户可能提供的不同查询具有鲁棒性。然而先前的工作表明LLMs并不鲁棒语义等同的查询可能导致不一致的预测。之前的许多工作试图为一个给定的关系找到最佳的一个或一组prompt来让模型更好地提取事实信息而本文中作者提出P-Adapters的模型来帮助LLMs克服这种变化性通过将自然语言prompt改变为连续的表征使LLMs能够准确预测事实信息。它们是端到端的优化在训练时只需要prompt宾语对并通过学习将不同的训练prompt映射到相同的宾语从而隐性地鼓励一致性。图1 P-Adapters的框架作者还研究了其他可以提高自然语言prompt一致性的模型专家混合MoE模型。并在四种情况中对模型进行了评估1.ID模板和宾语模板和宾语来自同一个分布。2.OOD Prompt不同的自然语言prompt集3.OOD Objects不同的实体分布。4.OOD Keyboard Errors有拼写错误的自然语言prompt。最后作者深入研究了什么使P-Adapter有效发现保持一些原始的自然语言prompt 的embedding特别是主语的embedding很重要。模型P-Adapter模型训练函数 使 达到最大LLMs的预测为 有许多不同的可能参数设定文章中描述了三个见图2(a)。Rewrite P-Adapter原始的embedding经过一个双向的LSTM和一个MLP后全部被改写成为完全不同的embedding。Prefix P-Adapter原始的embedding经过Bi-LSTM、max-pool和MLP后作为原始的embedding的前缀。P-Tuning P-Adapter基于P-Tuning的方法只有主语和[MASK] token的embedding保持不变但是此方法中需要知道主语的身份。MoE模型由一个预测自然语言prompt实体之间关系的分类器和一个用于将预测的关系映射到典型的连续prompt的查找表组成见图2(b)。Oracle方法与MoE方法类似只是不是使用分类器来预测关系而是在推理时使用gold关系见图2(b)。Baseline将自然语言prompt作为输入没有任何前缀或优化。图2 P-Adapter、MoE和Oracle模型实验数据集实体对方面作者使用了LAMA进行评估使用Shin等人[1]为每个关系收集的独立的实体对集进行训练和验证对于OOD Objects的情况使用了Cao等人[2]的uniform-wikidata数据集中的实体对模板方面作者使用了LAMA、LPAQA和ParaRel数据集并使用Lee等人[3]的BERT词汇替换系统为每个模板生成五个改述来补充ParaRel模板将这些模板分成两个同等大小的组一个用于训练一个用于OOD Prompt评估OOD Keyboard Errors的情况作者使用了训练的模板然后使用nlpaug包在每个模板中引入至少一个拼写错误。评价指标为P1和一致性一致性定义为其中表1中为BERT Base的实验结果BERT Large和RoBERTa Large的结果显示了类似的趋势详细见文章附录。在所有的评估设置中优化的prompt比自然语言的prompt有更高的精确度。表1 BERT Base的P1和一致性实验结果从表1的结果中观察到让LLM访问其未修改的自然语言prompt的embedding是有帮助的。因此作者进行了消融实验探究自然语言prompt的哪一部分是需要保留的。图3左显示了LLM的哪些embedding是重要的可以保持不修改。作者得出结论prompt中主语token的embedding不被修改使得P-Adapter表现突出但需要在训练和推理时知道主语token的索引这与之前不使用额外注释的要求相矛盾。因此作者提出了另一种版本的P-Adapter将未经修改的LLM的自然语言prompt加入到P-Adapter的输出中如下图3右显示了α等于0.5时模型表现最好。当主语和[MASK] token被替换进来时尽管表现比P-Tuning P-Adapter差但优于Rewrite P-Adapter。图3 左图为LLM的哪些embedding是重要的可以保持不修改。右图为不同的α与P-Tuning P-Adapter和Rewrite P-Adapter进行比较。参考文献[1] Auto- Prompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts. (EMNLP2020)[2] Knowledgeable or educated guess? revisiting language models as knowledge bases. (ACL2021)[3] Swords: A benchmark for lexical substitution with improved data coverage and quality. (NAACL2021)OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。