番禺响应式网站开发,上海网页设计公司哪儿济南兴田德润有活动吗,163企业邮箱免费注册,淘宝手机版网页本文转载自公众号#xff1a;阿里技术。导读#xff1a;2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构#xff0c;联合发布藏经阁#xff08;知识引擎#xff09;研究计划。藏经阁计划依赖阿… 本文转载自公众号阿里技术。 导读2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构联合发布藏经阁知识引擎研究计划。藏经阁计划依赖阿里强大的计算能力例如Igraph图数据库和先进的机器学习算法例如PAI平台。计划发布一年以来阿里知识图谱团队有哪些技术突破今天一起来了解。背景藏经阁计划发布一年以来我们对知识引擎技术进行了重新定义将其定义成五大技术模块知识获取、知识建模、知识推理、知识融合、知识服务并将其开发落地。其中知识建模的任务是定义通用/特定领域知识描述的概念、事件、规则及其相互关系的知识表示方法建立通用/特定领域知识图谱的概念模型知识获取是对知识建模定义的知识要素进行实例化的获取过程将非结构化数据结构化为图谱里的知识而知识融合是对异构和碎片化知识进行语义集成的过程通过发现碎片化以及异构知识之间的关联获得更完整的知识描述和知识之间的关联关系实现知识互补和融合知识推理是根据知识图谱提供知识计算和推理模型发现知识图谱中的相关知识和隐含知识的过程。知识服务则是通过构建好的知识图谱提供以知识为核心的知识智能服务提升应用系统的智能化服务能力。图1 藏经阁-知识引擎产品经过一年的工作在知识建模模块我们开发了Ontology自动搭建、属性自动发现等算法搭建了知识图谱Ontology构建的工具在知识获取模块我们研发了新实体识别、紧凑型事件识别关系抽取等算法达到了业界最高水平在知识融合模块我们设计了实体对齐和属性对齐的深度学习算法使之可以在不同知识库上达到更好的扩展性大大丰富了知识图谱里的知识在知识推理模块我们提出了基于Character Embedding的知识图谱表示学习模型CharTransE、可解释的知识图谱学习表示模型XTransE并开发出了强大的推理引擎。基于上面的这些技术模块我们开发了通用的知识引擎产品目前已经在全阿里经济体的淘宝、天猫、盒马鲜生、飞猪、天猫精灵等几十种产品上取得了成功应用每天有8000多万次在线调用日均离线输出9亿条知识。目前在知识引擎产品上已经构建成功并运行着商品、旅游、新制造等5个垂直领域图谱的服务。图2 知识引擎四个层次图示在每个模块的构建过程中我们陆续攻克了一系列的技术问题。本文将选取其中的两项工作来介绍给大家1、在众包数据上进行对抗学习的命名实体识别方法知识获取模块包含实体识别、实体链接、新实体发现、关系抽取、事件挖掘等基本任务而实体识别NER又是其中最核心的任务。目前学术界最好的命名实体识别算法主要是基于有监督学习的。构建高性能NER系统的关键是获取高质量标注语料。但是高质量标注数据通常需要专家进行标注代价高并且速度较慢因此目前工业界比较流行的方案是依赖众包来标注数据但是由于众包人员素质参差不齐对问题理解也千差万别所以用其训练的算法效果会受到影响。基于此问题我们提出了针对众包标注数据设计对抗网络来学习众包标注员之间的共性消除噪音提高中文NER的性能的方法。这项工作的具体网络框架如图3所示图3基于对抗网络的实体识别模型标注员ID对于各个标注员ID信息我们使用一个Looking-up表表内存储着每个WorkerID的向量表示。向量的初始值通过随机数进行初始化。在模型训练过程中ID向量的所有数值作为模型的参数在迭代过程中随同其他参数一起优化。在训练时每个标注样例的标注员我们直接通过查表获取对应的ID向量表示。在测试时由于缺乏标注员信息我们使用所有向量的平均值作为ID向量输入。对抗学习WorkerAdversarial众包数据作为训练语料存在一定数量的标注错误即“噪音”。这些标注不当或标注错误都是由标注员带来的。不同标注员对于规范的理解和背景认识是不同的。对抗学习的各LSTM模块如下私有信息的LSTM称为“private”它的学习目标是拟合各位标注员的独立分布而共有信息的LSTM称为“common”它的输入是句子它的作用是学习标注结果之间的共有特征。标注信息的LSTM称为“label”以训练样例的标注结果序列为输入。再通过标注员分类器把label和common的LSTM特征合并输入给CNN层进行特征组合提取最终对标注员进行分类。要注意的是我们希望标注员分类器最终失去判断能力也就是学习到特征对标注员没有区分能力也就是共性特征。所以在训练参数优化时它要反向更新。在实际的实体识别任务中我们把common和private的LSTM特征和标注员ID向量合并作为实体标注部分的输入最后用CRF层解码完成标注任务。实验结果如图4所示我们的算法在商品Title和用户搜索Query的两个数据集上均取得最好的性能图4基于对抗网络的实体识别模型实验结果 2、基于规则与graph embedding迭代学习的知识图谱推理算法知识图谱推理计算是补充和校验图谱关系及属性的必不可少的技术手段。规则和嵌入Embedding是两种不同的知识图谱推理的方式并各有优劣规则本身精确且人可理解但大部分规则学习方法在大规模知识图谱上面临效率问题而嵌入Embedding表示本身具有很强的特征捕捉能力也能够应用到大规模复杂的知识图谱上但好的嵌入表示依赖于训练信息的丰富程度所以对稀疏的实体很难学到很好的嵌入表示。我们提出了一种迭代学习规则和嵌入的思路在这项工作中我们利用表示学习来学习规则并利用规则对稀疏的实体进行潜在三元组的预测并将预测的三元组添加到嵌入表示的学习过程中然后不断进行迭代学习。工作的整体框架如图5所示 图5基于对抗网络的实体识别模型实验结果 嵌入学习优化的目标函数是其中lsro表示三元组的标记表示三元组的评分函数vs表示图谱三元组中主语(subject)的映射Mr表示图谱中两个实体间关系的映射vo表示图谱三元组中宾语(object)的映射。基于学习到的规则axiom就可以进行推理执行了。通过一种迭代策略先使用嵌入Embedding的方法从图谱中学习到规则再将规则推理执行将新增的关系再加入到图谱中通过这种不断学习迭代的算法能够将图谱中的关系预测做的越来越准。最终我们的算法取得了非常优秀的性能除了上述两项工作以外在知识引擎技术的研发上我们还有一系列的前沿工作取得了领先业界的效果研究成果发表在AAAI、WWW、EMNLP、WSDM等会议上。之后阿里巴巴知识图谱团队会持续推进藏经阁计划构建通用可迁移的知识图谱算法并将知识图谱里的数据输出到阿里巴巴内外部的各项应用之中为这些应用插上AI的翅膀成为阿里巴巴经济体乃至全社会的基础设施。知识引擎研究计划由阿里巴巴业务平台事业部知识图谱团队完成团队在知识图谱领域深耕多年拥有一支强大的NLP和知识图谱算法和工程团队。目前团队也在校园招聘暑期实习生和社会招聘贤才一起来研究前沿的图谱技术有意者可以把简历发到邮箱feiyu.xfyalibaba-inc.com。OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。