o2o与网站建设论文,制作表情包的软件app,平面设计培训班有用吗,手机网站禁止缩放本文主要介绍远程监督关系抽取任务上两个最新的工作。远程监督#xff08;Distantly Supervised#xff09;是关系抽取#xff08;Relation Extraction#xff09;的一种主要实现方法。关系抽取是指获得文本中的三元组#xff08;triple#xff09;#xff0c;包括实体对…本文主要介绍远程监督关系抽取任务上两个最新的工作。远程监督Distantly Supervised是关系抽取Relation Extraction的一种主要实现方法。关系抽取是指获得文本中的三元组triple包括实体对和它们之间的关系在自然语言理解中扮演着一个至关重要的角色。一般的方法采用完全监督的模式、需要大量的人工标注这些是高成本且费时的。为了缓解这样的情况研究人员企图构建远程监督关系提取器将已有的知识库比如 freebase对应到非结构化的文本数据中生成大量的训练数据来提高模型的训练效果。尽管远程监督节省了成本与时间但是句子级的RE其包含大量噪声的问题亟需解决。Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction论文地址https://www.aclweb.org/anthology/P19-1134论文动机远程监督关系提取广泛用于从文本中提取关系事实但存在标签噪声问题。目前的关系提取方法主要是通过多实例学习和提供语言和上下文信息的支持以更有效地指导关系分类。在获得最先进的结果时作者观察到这些模型偏向于识别有限的高精度关系而忽略了长尾关系。本文的扩展点在于通用结构引入额外的背景知识或者进行深度语言模型表示处理。论文贡献论文使用改进的GPT模型来处理袋级、多实例的远程监督数据集通过融合语句级信息和选择性注意机制得到袋级预测。除了从词法句法的角度解决问题外也更注重大量的常识知识。作者在NYT10数据集上评估所提出的微调语言模型与RESIDE模型和PCNNATT模型相比该模型实现了最先进的AUC。作者对预测结果进行了人工分析结果表明该模型预测得到更多样化的关系并且表现出更高的召回率。模型1. contextualized representations 语言模型学习方法无监督预训练语言表示模型采用最大似然估计作为损失函数Transformer模型目标函数整个优化过程采用随机梯度下降该结果是对于每一个词的概率分布用于下游任务的输入序列。2. Transformer多示例学习这部分介绍了我们对原始transformer体系结构的扩展支持远程监督数据集上的袋级多实例学习。文章假设一个标记的数据可以表示为选择注意力可以学习那些带有明显特征表示某个关系的句子同时不重视那些包含噪音的句子权重计算公式如下最终优化目标如下由于引入语言模型在微调过程中有助于改善泛化能力实现快速收敛故模型表现文章在结果上强调P-R曲线的balance问题即整体表现良好AUC面积最好这可能具备很高的应用价值而baselines方法都体现出在高召回率下drop early现象。Cross-relationCross-bag Attention for Distantly-supervised Relation Extraction论文地址https://arxiv.org/abs/1812.10604论文动机尽管远程监督节省了成本与时间但是远程监督方法是上下文无关的对于句子级的RE包含大量噪声。因此生成的训练数据通常包含大量噪音可能导致在常规的监督学习中表现不佳。选择性注意力机制企图为句子分配注意力权重之后结合包内所有句子用于训练。然而句子级选择性注意力ATT独立生成每种关系类型的权重而忽略了关系类型间的关联。论文贡献文章提出Cross-relation Attention在考察所有关系类型之间的相互影响后产生注意力权重并考虑了一个训练实例包含多个实体对的特殊情况。本文提出Cross-bag Attention结合不同的句子包将这种组合结构称为superbag并将其作为训练示例代替句子包这使得模型更加关注高质量的句子包减少知识库中过时或未表示的信息带来的噪声。文章采用句子级选择注意力机制减少噪声以及不匹配句子的影响同时利用关系间的相关性来提高注意权重的质量。此外不同于之前将所有实体对看作是等价的文章采用注意力机制关注更高质量的关系对。模型本文模型C2SA的提出通过考虑关系间的相关性提高句子级注意力的效果并在另一个注意力层级筛选包级别特征。多示例学习方法有助于减少噪声增强模型鲁棒性多示例学习把句子包视为基础的训练示例每个包中的一组句子被标记为相同的知识库事实。通过包内选择模型可以更加关注高质量的句子减少对噪音句子关注。如图1所示关系抽取器包含两个组件一个神经网络特征抽取器和一个输出层。模型训练过程整个分为四个步骤首先为每个句子构建表示。之后cross-relation选择性注意结合句子表征并生成句子包的表征。相似地cross-bag选择注意力结合句子包表示生成超级包表示。最终loss基于superbag特征指导关系抽取器学习。1. 神经网络特征抽取器对于神经网络特征抽取器它可以抽取有用的特征进行关系分类并可以使用任何的神经网络结构包括CNN与RNN。文章采用piecewise-CNN由卷积层和分段最大池化层。卷积层输出结果c计算方法如下2. 输出层基于抽取特征输出层对关系类型做出预测。为计算每个关系的置信度本文采用线性投影与softmax函数计算条件概率采用droput策略防止过拟合。 3. Cross-relation Cross-bag Selective AttentionCross-relation Selective Attention其目的旨在减少噪声或错误匹配句子的影响计算选择注意力基于句子与关系间的相似性为了捕获关系之间的相关性文中使用bayes规则计算期望注意权重Cross-relation Selective Attention不仅仅依赖于目标关系句子的相似性也依赖于其他关系。该机制假设在包中至少一句话表达实体对的某种关系远程监督在句子包级别存在噪音可能大量关系对不能发现知识库中给定的表达这种实体对会导致句子级关系抽取存在不匹配或噪声训练示例。针对上述问题本文结合几个包含相同关系类型的句子包将注意力集中到更高质量的部分采用attention layer结合包公式如下最终模型目标函数训练采用负对数似然实现Cross-bag Selective Attention机制如下图模型表现使用NYT10作为训练集53个分类数据集包含522611个句子281270实体对和18252知识库事实。实验结果反映了两个重要信息1本文提出的cross-relation与cross-bag对模型效果的提升都有效2余弦相似度代替点乘作为评分函数的一部分是非常有效的。