广州响应式网站咨询,推广普通话实践总结,网站的模块怎么做,有什么好的提供外链网站深度学习自然语言处理 原创作者: Xnhyacinth 在自然语言处理#xff08;NLP#xff09;领域#xff0c;如何有效地进行无监督域自适应(Unsupervised Domain Adaptation, UDA) 一直是研究的热点和挑战。无监督域自适应的目标是在目标域无标签的情况下#xff0c;将源域的知识… 深度学习自然语言处理 原创作者: Xnhyacinth 在自然语言处理NLP领域如何有效地进行无监督域自适应(Unsupervised Domain Adaptation, UDA) 一直是研究的热点和挑战。无监督域自适应的目标是在目标域无标签的情况下将源域的知识迁移到目标域以提高模型在新领域的泛化能力。近年来随着大规模预训练语言模型的出现情境学习In-Context Learning 作为一种新兴的学习方法已经在各种NLP任务中取得了显著的成果。然而在实际应用场景中我们经常面临一个问题源领域的演示数据并不总是一目了然。这就导致了需要进行跨领域的上下文学习的问题。此外LLMs在未知和陌生领域中仍然面临着一些挑战尤其是在长尾知识方面。同时在无监督域自适应任务中如何充分利用情境学习的优势进行知识迁移仍然是一个开放性问题。 本文旨在探讨如何在无监督域自适应场景下通过检索增强的情境学习Retrieval-Augmented In-Context Learning 实现知识迁移。具体来说作者提出了一种名为Domain Adaptive In-Context Learning (DAICL) 的框架该框架通过检索目标域的相似示例作为上下文帮助模型学习目标域的分布和任务特征。全面研究了上下文学习对于领域转移问题的有效性并展示了与基线模型相比取得的显著改进。 接下来就让我们一起看看作者是如何实现检索增强情境学习的知识迁移 论文: Adapt in Contexts: Retrieval-Augmented Domain Adaptation via In-Context Learning地址: https://arxiv.org/pdf/2311.11551.pdf 前言 在自然语言处理领域大型语言模型LLMs通过其强大的能力在各种任务上取得了显著的成功。然而当面临跨领域的情景时LLMs仍面临着挑战由于目标域标签不可用在实际场景中通常缺乏域内演示。从其他领域获取带标签的示例可能会遭受巨大的句法和语义领域变化。此外LLMs很容易产生不可预测的输出, 而且LLMs在未知和陌生领域的长尾知识上仍然存在局限性。因此亟需有效的适应策略将语言模型的知识从标记的源域转移到未标记的目标域称为无监督域适应UDA。UDA 旨在调整模型从标记的源样本和未标记的目标样本中学习与领域无关的特征。 为了解决这些问题本文提出了一种基于上下文学习的无监督领域适应Unsupervised Domain Adaptation, UDA方法旨在将LLMs从源领域成功适应到目标领域无需任何目标标签。从目标未标记语料库中检索类似的示例作为源查询的上下文并通过连接源查询和目标上下文作为输入提示来执行自适应上下文学习。如上图所示对于来自源域的每个输入将其上下文与从目标未标记域检索到的语义相似的文本组合起来以丰富语义并减少表面形式的域差异。然后模型将学习源输入和目标上下文的任务区分。 方法 该研究提出了一种名为Domain Adaptive In-Context Learning (DAICL)的框架通过检索目标域的相似示例作为上下文帮助模型学习目标域的分布和任务特征使LLMs同时学习目标领域分布和判别性任务信号。具体来说对于给定的源域数据和目标域数据首先使用检索模型如SimCSE在目标域中检索与源域数据相似的示例。然后将检索到的示例作为上下文与源域数据一起作为输入进行情境学习。通过这种方式模型可以在目标域的上下文中学习任务特征同时适应目标域的数据分布。主要分为以下几个部分 检索目标域相似示例首先在目标域中检索与源域数据相似的示例。这一步的目的是找到能够代表目标域特征的示例以便模型能够在目标域的上下文中学习任务特征。检索方法可以采用现有的密集检索模型如SimCSE。构建上下文将检索到的目标域相似示例与源域数据一起作为输入形成上下文。这样模型可以在目标域的上下文中学习任务特征同时适应目标域的数据分布。情境学习在构建的上下文上进行情境学习。这里采用了两种任务损失函数1上下文任务损失用于学习任务特征预测标签值y2上下文语言建模损失用于学习目标域的分布。通过优化这两个损失函数模型可以在目标域中实现知识迁移。模型训练根据所使用的模型架构如编码器解码器模型设计相应的prompting策略和训练策略。对于编码器模型可以采用提示词prompt策略将源域数据和检索到的目标域示例拼接在一起作为输入对于解码器模型可以直接将检索到的目标域示例作为输入进行自回归学习。模型评估在目标域的测试数据上评估模型性能。通过比较不同方法在命名实体识别NER和情感分析SA等任务上的结果验证DAICL框架的有效性。 如上图所示 显示了 NER 任务上仅编码器模型的训练过程概述MLM 目标会鼓励编码器学习与源域无法区分的目标分布。对于任务学习目标在源输入上使用平均汇聚average pooling 作为情感分析任务的预测机制而在语言模型特征之上使用附加的条件随机场CRF层进行命名实体识别任务的标记级别分类。 对于仅解码器架构包括仅推理和微调两种范式下图图为带有推理提示的示例在给定目标测试查询的情况下从源标记数据集中搜索输入标签对。虚线框包含从源检索的演示。 对于微调设置下利用lora用更少的计算资源微调更大的 LM微调数据示例形式为如下所示 实验设置 为了评估DAICL方法的有效性该研究在命名实体识别NER和情感分析SA任务上进行了广泛的实验。实验采用了多种源域和目标域的组合涵盖了新闻、社交媒体、金融和生物医学等领域。CoNLL-03英语新闻作为源域数据集目标域数据集包括金融FIN、社交媒体WNUT-16、WNUT-17、生物医学BC2GM、BioNLP09、BC5CDR 对于情感分析SA任务使用了亚马逊评论数据集涵盖了四个领域书籍BK、电子产品E、美容BT和音乐M。 本文对比了多种基线方法包括无监督域自适应的传统方法如Pseudo-labeling和对抗训练、基于检索的LM方法如REALM和RAG和情境学习方法如In-context learning。在实验中将不同的LLMs架构与提出的In-Context Learning方法进行对比并评估其在领域适应中的性能。对于评估指标NER任务使用了F1分数SA任务使用了准确率acc。 结果分析 由以上两个任务的性能对比表可知DAICL 同时学习两个目标在大多数适应场景中都大大超过了基线。从 ICL-sup 的结果来看我们发现仅使用任务目标进行训练对 UDA 略有帮助。正如前面所讨论的好处源于利用目标上下文的任务判别能力。通过将 DAICL 与 ICL-sup 和 ICL-source 进行比较可以发现所提出的上下文适应策略通过同时联合学习任务信号和语言建模来增强领域适应。 微调有益于UDA在 NER 实验中ChatGPT 的性能非常低但微调更小的 RoBERTa 模型可以在大多数适应场景中实现最先进的分数。在 SA 实验中使用更少的可训练参数 (1.7M) 微调 LLaMA 优于所有其他方法。因此我们假设虽然法学硕士具有很强的泛化能力但他们不能解决所有领域的问题。对于UDA来说设计一个有效的适配策略还是有好处的。 最后作者也对比了自适应ICL和自适应预训练自适应 ICL 在执行任务预测时将源输入与目标上下文混合而自适应预训练只需要源输入自适应ICL同时学习两个损失。为了比较这两种方法在 LLaMA-LoRA 上进行了实验以执行自适应预训练。在第一阶段使用目标未标记文本预训练 LoRA 权重。第二阶段从上一阶段获得的LoRA检查点开始通过任务监督继续对其进行微调。使用相同的羊Alpaca模板但不提供说明性上下文。结果见上表可以观察到与 NoICL 相比预训练对 SA 任务带来的收益很小可以推测 SA 数据集中的域差距比 NER 数据集中的域差距更小。从而得出结论所提出的自适应 ICL 策略优于自适应预训练这可能归因于自适应 ICL 下的仅解码器模型可以学习具有示范上下文的两个目标。 总结 本文提出了一种名为Domain Adaptive In-Context Learning (DAICL)的框架用于实现无监督域自适应UDA。该框架通过检索目标域的相似示例作为上下文结合任务损失和领域适应损失进行情境学习以实现知识迁移。实验采用了多个源域和目标域的数据集包括命名实体识别NER和情感分析SA任务。与多种基线方法相比DAICL在多种跨域场景下均取得了显著的性能提升证明了其有效性。 尽管本文的方法在领域自适应上取得了令人满意的结果但仍有一些可以进一步探索和改进的方向。首先可以进一步研究不同的上下文学习策略以进一步提高语言模型的领域适应能力。其次可以考虑在不同任务和领域之间进行联合训练以进一步提升模型的泛化性能。此外还可以探索如何将上下文学习与其他领域自适应技术如对抗训练相结合以进一步改进模型的适应性和抗干扰能力可以考虑将多个任务同时进行无监督域自适应以提高模型的泛化能力和适应性。通过在这些方向进行探索和改进未来研究有望进一步提高无监督域自适应方法的性能为实际应用提供更有效的解决方案。 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦