在阿里怎样做单页销售网站,不用买服务器可以做网站,wordpress后台定制,创意网站设计 高端链接#xff1a;https://arxiv.org/pdf/1808.06876.pdf动机Szegedy 在 14 年发现#xff0c;对于图像分类问题的神经网络#xff0c;若是在输入中人为的添加很小尺度的扰动#xff0c;会让已经训练好的神经网络做出错误的判断#xff0c;并且可能以很高的置信度输出。很多… 链接https://arxiv.org/pdf/1808.06876.pdf动机Szegedy 在 14 年发现对于图像分类问题的神经网络若是在输入中人为的添加很小尺度的扰动会让已经训练好的神经网络做出错误的判断并且可能以很高的置信度输出。很多人将这个性质的原因归结为深层神经网络的⾼度⾮线性以及过拟合。Goodfellow则给出了不同的看法。他认为即使是线性模型也有这种现象。在高维空间中即使是很小的扰动也会对最终的输出值产生很大的影响。⽽对于神经⽹络⽽言很多神经网络为了节省计算上的代价都被设计成了线性的形式这使得他们更容易优化但是这样廉价的⽹络也导致了对于对抗扰动的脆弱性。除了生成对抗样本来攻击神经⽹络以外对抗训练神经网络从⽽有效防⽌对抗样本的攻击也是⼀一个值得考虑的问题。之后大家开始尝试将对抗训练AT用于 NLP 领域如文本分类问题。本文尝试将AT加入到实体识别和关系抽取的联合模型中观察AT对联合模型的效果。亮点文章的亮点主要包括1提出了命名实体识别和关系抽取的联合模型可以同时识别实体和实体间的关系并且对于实体间存在的多关系也可以一次性提取出来2在训练过程中添加了对抗训练AT提升联合模型的鲁棒性和范性。相关工作一实体和关系抽取的联合模型: 最初的联合模型是基于人工提取的特征用于同时执行命名实体识别和关系提取子任务。这些方法依赖于NLP工具例如POS标记器的可用性或者手工设计的特性会导致额外的复杂性。之后神经网络的方法用来克服这一特征设计问题通常涉及到RNNs和CNNs。特别是Miwa和Bansal以及Li等人将双向树状结构的RNNs应用于不同的上下文以捕获语法信息使用外部依赖分析器。Gupta等人则使用各种手工提取的特性应用到RNNs中。Adel提出了解决简单问题的实体分类EC假设给出实体边界与NER不同的是他们复制实体周围的环境将实体对喂给关系提取层。Katiyar和Cardie在研究带 attention 的RNNs时没有考虑到关系标签并不是相互排斥的。最后Bekoulis等人在联合模型中使用LSTMs一次只提取一个关系但增加了NER部分的复杂性。我们的基准模型支持从相同的输入同时提取多组关系。然后我们使用对抗式训练进一步扩展了这个强大的基线。 二对抗性训练AT对抗训练(AT)是通过对训练数据产⽣生对抗噪声来规范分类算法的⼀一种⼿手段。它⿎鼓励神经⽹络对未经修改的例⼦子和扰动的例子进⾏正确的分类来实现深层模型这实际上不仅增强了神经⽹络的鲁棒性⽽且提高了它的普遍性。Szegedy的⽂章表明将对抗样本和普通样本一起训练模型训练可使模型稍微正则化。训练对抗样本和平常的训练样本数增加不一样通常我们通过对数据进⾏变形来增加数据这样变形后的数据是可能出现在测试集⾥的。⽽对抗样本这种数据通常不可能⾃然地出现在测试集中但是它们可以揭露出模型的缺陷。在NLP环境中针对不同的任务如文本分类、关系提取和词性标注AT有几种不同的变体。AT被认为是一种正则化方法。与其他引入随机噪声的正则化方法(dropout,word - dropout)不同AT产生的扰动是模型容易误分类的样本的变体。模型文中设计的联合抽取模型如下基本模型从下往上依次为1输入层输入是一个句子的序列 tokens。我们使用character embeddings来隐式捕获形态学特征例如前缀和后缀通过一个vector(embedding)表示每个字符将character embeddings 嵌入到BiLSTM中以获得单词的基于字符的表示。另外也使用预训练过的word embeddings。2BiLSTM层word 和character embeddings 连接起来形成最终的token 表示然后将其输入到BiLSTM层以提取顺序信息。3实体识别层对于NER任务我们采用BIO (Beginning,Inside, Outside) 编码方案。对于实体标记的预测我们使用(i) softmax方法进行实体分类EC任务(假设给定的实体边界)或 (ii) CRF方法这样我们同时识别每个实体的类型和边界。在解码过程中在softmax设置中我们贪婪地检测token的实体类型。虽然独立的类型分布对于EC任务来说是合理的但是当相邻标签之间有很强的相关性时就不是这样了。例如BIO编码方案在NER任务中强加了几个约束(例如B-PER和I-LOC标记不能连续)。基于这种直觉我们使用线性链CRF来完成NER任务。在CRF设置中对于解码我们使用Viterbi算法。在训练过程中对于EC (softmax)和NER任务(CRF)我们将交叉熵损失L(NER)最小化。4关系抽取层实体标签作为label embeddings输入到关系提取层与Bi提取的句子表示一起做关系抽取。其中假设实体类型的知识有助于预测相关实体之间的关系。以上为完整的基本模型。若是在该联合模型的输入层中针对embedding人为的添加小尺度的扰动η就可以进行对抗训练AT。具体的η计算过程如下。对于联合模型来说有实体识别和关系抽取的联合损失函数 Ljoint接下来生成一个对抗的输入样本通过添加最坏扰动ηadv加入到输入的embedding中来最大化损失函数对于ηadv直接在神经网络中求解是比较繁琐复杂所以一般取其近似值为其中ε为定义的超参数和输入层的 word embedding 的维度相关。如 word embedding 为100时ε 可以近似取值为 0.01。g 为联合损失函数在 w 方向的梯度也正是为了说明添加的扰动对于神经网络来说是最坏的情况。之后训练的输入为原始和对抗样本的混合所以最终求得的损失函数为实验我们使用 github 代码基中的代码在四个数据集中评估模型。特别地我们遵循 Miwa 和 Bansal 为 ACE04 数据集定义的 5 倍交叉验证。对于CoNLL04EC任务(假设给定边界)我们使用与 Gupta 等人相同的分割。我们还使用10倍交叉验证对NER任务的模型进行评估类似于Miwa和Sasaki在同一数据集中使用的模型。对于荷兰房地产分类信息DRECdataset我们使用了Bekoulis等人的训练测试分割。对于不良药物事件ADE我们进行了10倍的交叉验证类似于Li等人。为了获得不受输入嵌入影响的类似结果我们使用了之前作品的嵌入。我们在所有的实验中都采用了早停的方法。我们使用Adam优化器并修复超参数验证集。选择缩放参数α的范围为{ 5 e−2,1e−2、1 e−3、1 e−4 }。更大的α值在我们早期的实验导致一致的性能降低。这可以从一个事实来解释添加更多的噪音可以改变句子的内容改变的词向量的语义。我们使用三种类型的评估,即:1S(trict)如果实体边界和实体类型都是正确的则我们将实体得分为正确ACE04,ADE, CoNLL04, DREC2B(oundaries)如果只有实体边界是正确的而不考虑实体类型则我们将实体得分为正确(DREC)3R(elaxed)如果将至少一种正确的类型分配给组成该实体的tokens假设边界已知则认为multi-token实体分类是正确的。在所有情况下当关系类型和参数实体都正确时关系被认为是正确的。实验结果表明我们的联合模型取得了当前最好的效果。另外当有AT加入到输入层时可以让训练更快速度的达到收敛。总结 本文执行一个大规模的实验研究在这个联合模型任务上使用了不同的语境和语言的数据集。建立了一个强大的基线它的性能优于所有以前的模型而且模型依赖于自动提取的特性实现了最先进的性能。另外与基线模型相比在训练过程中应用AT可以让联合抽取的效果持续增加。 论文笔记整理余海阳浙江大学硕士研究方向为知识图谱、自然语言处理。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。转载须知转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题请注明原标题。 点击阅读原文进入 OpenKG 博客。