企业运营网站建设,求职简历模板免费,怎么做一个盈利网站,wordpress建小程序1. 问题
句间关系 很多约等于文档级关系抽取 文档级关系抽取 句子间关系多 生物医药领域尤其多 需求/困难 整合同一文档不同句子间的信息处理句间实体复杂的交互
2.相关工作 文档级别关系抽取 结论#xff1a; 实体mention之间的交互促进推理过程#xff08;文档级关系抽…1. 问题
句间关系 很多约等于文档级关系抽取 文档级关系抽取 句子间关系多 生物医药领域尤其多 需求/困难 整合同一文档不同句子间的信息处理句间实体复杂的交互
2.相关工作 文档级别关系抽取 结论 实体mention之间的交互促进推理过程文档级关系抽取中 因而使用MIL MIL Verge2018,Jia2019缺点 * 无法捕捉丰富的非局部交互 使用结构信息获取更好的推理 优点可以捕捉到非局部依赖整合不同句子的信息构建静态的文档级别图 来源非结构化文本依赖规则和共指消解 语义信息co-referencesheuristics:启发式 eg Peng2017:构建依赖图句间多元实体Sahu,2019:用共指消解扩展了Peng的图构建了文档级别的图Christopoulou2019利用结构信息基于一组启发式构建一个异构图并使用一个特定于边的模型 句子内关系抽取 句子间关系抽取 Peng:句间关系多尤其是生物医药领域生物医药领域 l (Quirk and Poon, 2017;Gupta et al., 2018;Song et al., 2019)
3.本文方法
本文模型LSR 构建隐式文档级别图 自动的目的加强句子间的关系推理 捕捉实体间的非局部交互 构建 不依赖于规则和共指消解将图结构视作隐式的变量并以端到端的形式引入它基于结构化的attention使用矩阵树理论可以生成一个任务特定的依赖结构 进一步迭代的细化策略 目的使得模型能够增量地聚合多条推理的相关信息做到:基于上一次迭代动态第构建隐式结构 组件 node constructor encoder文档中的每个句子编码表示-上下文的表示node:最短依赖路径的mention和tokens的向量表示作为node dynamic reasoner 生成结构基于被提取的节点生成文档级结构更新node表示 基于隐式结构上的信息传递迭代细化 classifier 分类节点最后的表达被用于计算分类的分数
3.1 Node constructor encoder文档中的每个句子编码表示node:最短依赖路径的mention和tokens的向量表示作为node mention nodeentity nodemeta dependency paths nodeMDP 所有mentions最短依赖路径的集合token–node
3.1.1 context encoding
文档d文档内句子did_idi编码器LSTM(BiLSTM)/Bert BiLSTM hji→LSTMl(hj1i←,γji)\overrightarrow{h_j^i}LSTM_l(\overleftarrow{h_{j1}^i},\gamma_j^i)hjiLSTMl(hj1i,γji)hji←LSTMl(hj−1i→,γji)\overleftarrow{h_j^i}LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i)hjiLSTMl(hj−1i,γji)j-di中的第j个tokenγ:wordembedding\gamma:word embeddingγ:wordembeddinghji[hji←;hji→]h_j^i[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}]hji[hji;hji]
3.1.2 Node Extraction
node:最短依赖路径的mention和tokens的向量表示作为node mention nodeentity node mentions的平均 meta dependency paths nodeMDP 所有mentions最短依赖路径的集合token–node 构建图 Sahu:使用一个句子的依赖树中的所有节点Christopoulou:通过对句子的所有标记求平均来构建一个句子级别的节点或者:使用mention之间的最短依赖路径上的tokens 这个广泛用于句子级关系抽取因为他可以有效使用相关信息忽视无关信息
3.2 Dynamic Reasoner
structure induction 学习隐式的文档级图结构 multi-hop reasoning 在图上推理更新节点表示基于信息传递 迭代 N blocks为了迭代细化隐式的文档级图为了更好的推理
3.2.1 Structure Induction
不依赖于规则和共指消解将图结构视作隐式的变量并以端到端的形式引入它基于结构化的attention公式 node:ui,uju_i,u_jui,uj上下文表示pair-wise unnormalized attention score sij(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij(tanh(Wpui))TWb(tanh(Wcuj)) 2个ff1个bilinear transformation root scoresirWruis_i^rW_ru_isirWrui–第i个节点被选作root的概率边的权重Pij{0if ijexp(sij)otherwiseP_{ij} \begin{cases} 0 \text{if ij}\\ exp(s_{ij}) \text{otherwise} \end{cases}Pij{0exp(sij)if ijotherwise拉普拉斯矩阵 Lij{Σi′1nPi′jif ij−PijotherwiseL_{ij}\begin{cases} \Sigma_{i1}^nP_{ij} \text{if ij}\\ -P_{ij}otherwise \end{cases}Lij{Σi′1nPi′j−Pijif ijotherwisevariant: Lij^{exp(sir)if i1Lijif i1\hat{L_{ij}}\begin{cases} exp(s_i^r) \text{if i1}\\ L_{ij} \text{if i1} \end{cases}Lij^{exp(sir)Lijif i1if i1 marinal probability of the dependency edge: Aij(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]jiA_{ij}(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji}Aij(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]ji输出给下一组件
3.2.2 Multi-hop Reasoning
GCN dense connection 捕捉到更多结构信息帮助训练更深的网络 –获取更丰富的局部和非局部的信息 uilRelu(Σj1nAijWluil−1bl)u_i^lRelu(\Sigma_{j1}^nA_{ij}W^lu_i^{l-1}b^l)uilRelu(Σj1nAijWluil−1bl)
3.2.3 Iterative Refinement
structured attention诱导的图结构不足 相对较浅无法建模复杂的依赖 解决在更新后的表示上细化图 堆叠N个动态reasoner 诱导N次图早期更多的是相邻的信息迭代多了之后结构获得了更丰富的非局部信息的交互因而诱导模块能够生成包含更多信息的结构
3.3 分类器
P(r∣ei,ej)σ(eiTWeejbe)rP(r|e_i,e_j)\sigma(e_i^TW_ee_jb_e)_rP(r∣ei,ej)σ(eiTWeejbe)r
4.结果
数据集 DocRED F1:59.05\ CDRGDA DocRED结论 该模型可以更准确地发现句间关系 静态的基于文档图的模型不能够捕捉到复杂的交互LSR比动态的基于局部attention的模型能够得到更多信息的文档级结构获得更好的推理 直接编码整个文档的模型不能够捕捉到句间关系好于Bert捕捉到了长期依赖而没有使用上下文的模型 CDR LSR 打不过 Spacy在生物领域很弱所以不行 简化的LSR:去除MDP,使用全连接图 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training 本文要是用了的话他也行他自己说的 GDA: Christopoulou2019全连接图的变体他的句间关系好于句内关系因为他忽略了不同句子间的差异当一个句子处理了
4.6.1 Latent Structure Matter的有效性
相同block num下效果最好证明了有效
4.6.2 细化
第二次迭代时2个block)最好所以细化有效但是太多次就会过拟合。
4.7 Ablation Study
Structure Induction 去掉这个性能下降最多且都是句间关系抽取性能下降的结果隐式结构有用
4.8 Case Study