哪里有做网站,福州seo关键字推广,企业产品展示厅设计效果图,做ppt卖给网站本文是LLM系列文章#xff0c;针对《Who’s Harry Potter? Approximate Unlearning in LLMs》的翻译。 哈利波特是谁#xff1f;LLMs中的近似遗忘 摘要1 引言2 我们方法的描述3 评估方法4 结果5 结论 摘要
大型语言模型#xff08;LLM#xff09;是在大量的互联网语料库…本文是LLM系列文章针对《Who’s Harry Potter? Approximate Unlearning in LLMs》的翻译。 哈利波特是谁LLMs中的近似遗忘 摘要1 引言2 我们方法的描述3 评估方法4 结果5 结论 摘要
大型语言模型LLM是在大量的互联网语料库上训练的这些语料库通常包含受版权保护的内容。这给这些模型的开发人员和用户以及原始作者和出版商带来了法律和道德挑战。在本文中我们提出了一种新的技术用于从LLM中忘记训练数据的子集而不必从头开始重新训练。 我们评估了我们在从Llama2-7b模型Meta最近开源的生成语言模型中忘记哈利波特书的任务上的技术。虽然该模型花费了超过184K个GPU小时进行预训练但我们发现在大约1个GPU小时的微调中我们有效地消除了该模型生成或回忆哈利波特相关内容的能力而其在常见基准测试如Winogrande、Hellaswag、arc、boolq和piqa上的性能几乎不受影响。据我们所知这是第一篇在生成语言模型中提出有效的遗忘技术的论文。 我们的技术由三个主要组成部分组成首先我们使用一个在目标数据上进一步训练的强化模型通过将其logits与基线模型的logits进行比较来识别与遗忘目标最相关的token。其次我们将目标数据中的特殊表达式替换为通用表达式并利用模型自己的预测为每个token生成替代标签。这些标签旨在近似尚未在目标数据上训练的模型的下一个标记预测。第三我们在这些替代标签上对模型进行微调无论何时提示其上下文这都会有效地从模型的内存中删除原始文本。
1 引言
2 我们方法的描述
3 评估方法
4 结果
5 结论
教授大型语言模型LLM以选择性遗忘或“忘记”的雄心勃勃的努力证明了人工智能和机器学习世界中固有的微妙复杂性。人们普遍认为这是一项艰巨的任务任何在LLM中启用此类功能的尝试都是创新解决方案的先锋因此我们的概念验证可以说强调了进步。 首先我们的研究表明正如我们对Llama2-7b模型的实验中的积极结果所表明的那样忘记学习虽然具有挑战性但并不是一项不可逾越的任务。然而这一成就必须以审慎的态度来看待。我们目前的方法——基于向模型提供的提示进行评估并评估由此产生的完成情况——尽管在某些情况下有效但可能对提取信息的更具对抗性的方法视而不见。可以想象非传统或复杂的方法如深入研究token概率分布可能会无意中揭示模型对未学习内容的潜在熟悉程度。 深入探究我们的技术潜在的普遍性当考虑到《哈利·波特》系列的独特属性时会出现一个相关的观察结果。这些书充满了独特的表达方式和独特的名字——事后看来这些特征可能助长了我们的遗忘策略。在许多LLM的训练数据中哈利波特主题的明显存在进一步加剧了挑战。鉴于这种广泛的表现即使是提示中的最轻微提示也可能引发一连串相关的填充突显出模型中根深蒂固的记忆深度。 我们方法论的一个细微之处在于依赖GPT-4对哈利波特宇宙的现有知识。为了检测特定的锚定术语并设计通用的对应术语GPT-4的专业知识被证明是有用的。这就提出了一个问题如果没有如此丰富的先验知识我们的技术是否能达到类似的效果。初步实验表明在缺乏这些知识的情况下实体提取仍然是有效的我们推测对特质表达的不熟悉可以通过简单的n-gram频率分析来解决但我们为未来的工作留下了更彻底的研究。 将我们的方法扩展到其他类型的内容特别是非小说或教科书也带来了一系列挑战。与哈利波特的虚构世界不同非虚构内容将不会拥有相同密度的独特术语或短语。此外非虚构文本通常嵌入更高层次的结构如思想、概念或文化视角。目前还不确定我们的技术能在多大程度上有效地处理和消除这些更抽象的元素。这显然需要对我们的技术进行调整。 总之虽然我们的技术提供了一个有希望的开端但它在各种内容类型中的适用性仍有待彻底测试。所提出的方法提供了一个基础但还需要进一步的研究来完善和扩展LLM中更广泛的遗忘任务的方法。