当前位置: 首页 > news >正文

网站建设服务 杭州哪些网站做免费送东西的广告

网站建设服务 杭州,哪些网站做免费送东西的广告,太原app制作公司,如何不花钱做网站转载公众号 | DataFunTalk导读#xff1a;知识表示是知识获取与应用的基础#xff0c;贯穿了小米知识图谱的构建与应用。本文将结合小米知识图谱的构建及小爱问答场景#xff0c;介绍融合文本和知识图谱的知识表示学习方法#xff0c;以及知识表示在知识图谱补全、实体链接… 转载公众号 | DataFunTalk导读知识表示是知识获取与应用的基础贯穿了小米知识图谱的构建与应用。本文将结合小米知识图谱的构建及小爱问答场景介绍融合文本和知识图谱的知识表示学习方法以及知识表示在知识图谱补全、实体链接、实体推荐等任务的落地。主要围绕以下3点展开业务介绍小米知识图谱的架构和业务算法介绍融合文本和知识图谱的表示学习方法算法应用知识表示学习在实体链接、实体推荐、知识补全的应用01业务介绍1. 小米知识图谱团队小米知识图谱团队旨在硏究知识图谱在开放领域和行业领域的构建和应用技术把知识图谱推广到相关的业务场景上。目前团队已经构建了大规模、高质量的知识图谱提供了实体检索、实体链接、概念图谱等服务并且服务于小爱同学、小米网、小米信息流等业务方。2. 知识图谱为小爱赋能这是一个知识图谱为小爱赋能的例子。当用户询问巩俐籍贯的时候我们从库中给出相应的答案与巩俐相关的实体信息。下面简单介绍一下处理流程。当用户询问一个问题query时比如说问题是“武汉大学周边有什么好吃的”它的解答流程就是① 首先语言识别出这句话的文本内容② 然后通过分析发现用户的意图是想询问“美食”相关的事物③ 接着通过实体匹配去进行核心实体的识别实体的歧义性消除以及属性的归一等处理确定用户询问的是全国重点大学“武汉大学”这个实体的“周边美食”这个属性④ 据此从库中查询相应的结果并且作为输出⑤ 另外我们还会针对该实体做实体的推荐以此实现相似问题的推荐02算法介绍知识表示学习是指基于分布式的表示思想将实体或者是关系的语义信息映射到低维、稠密、实值的向量空间中使得语义相似的两个对象之间的距离也很相近。最常见的表示学习方法是融合事实信息的方法比如基于翻译、张量分解、神经网络和图神经网络的各种模型。但是这些模型并不善于处理大规模知识图谱中存在实体与关系长尾分布的问题。在图谱中长尾分布体现为很多实体数量极少甚至没有关系事实这就导致数据存在很严重的稀疏性。对于这些长尾的实体和关系在没有或者很少关系的情况下仅基于传统的事实三元组头部关系尾部进行学习是没有办法得到的。对此大佬们尝试了各种五花八门的解决办法最简单直接的就是① 利用知识库中其他的信息比如说文本描述信息、信息实体类型、关键路径、逻辑规则等还包括实体的属性、时序信息、图结构等② 利用知识库外的海量信息比如说互联网等包含大量知识库实体和关系的有关的信息。1. 融合文本描述的优势融合文本描述的优势有哪些发掘实体之间的语义相关性精确的语义表述能够提升三元组的可区分性。在上面的例子中我们可以看到{撒贝宁配偶李白}而李白的描述文本中就存在“撒贝宁妻子”这样的关键信息。该情境下融合文本描述的语义信息能够帮助发掘更多的语义之间的相关性当一些实体对于现有的知识图谱来说是新的并且仅仅带有描述性信息的时候传统的知识图谱表示学习方法不能够表示这些新的实体但是融入了文本描述的模型就能够通过描述信息建立这些实体的表达。文本描述如何构成呢我们的处理方式是将实体的类型、文本描述和重要的三元组按照一定的规则进行拼接构成一段文本作为实体的描述文本这段文本比简单的文本描述包含更多的信息。2. 文本与知识图谱对齐下面将会介绍两种经典的融合文本和知识图谱的知识表示学习方法这两种方法都可以将实体向量、关系向量和词向量放到同一个语义空间下。为什么要把文本以及词向量放到一个空间中因为如果我们遇到了需要同时处理文本和实体的任务实体和文本中的词做内积等向量运算才会有意义依靠这些运算方法我们就能比较实体和文本之间的词的关系。这一篇文章描述了比较经典的文本与知识图谱对齐的模型Jointly联合模型作者先后发表了两篇论文来优化该方法。文章研究的内容是融合文本信息到知识图谱中实现知识图谱中的实体和实体描述文本联合嵌入表示。对齐模型的关键在于将实体向量、关系向量和词向量表示在同一个语义空间下。要求实体的表示向量不仅满足知识图谱的结构化约束同时也要被文本描述中的词向量进行约束。模型一共分为三个部分文本嵌入采用skip-gram模型利用欧式距离衡量两个单词之间的相似性训练词与词之间的约束知识嵌入采用Trans-E模型训练实体与实体之间的约束对齐模型利用文本描述对齐训练实体和文本之间的约束确保关系能够和文本的单词在同一个语义空间中。第二篇论文也根据类似的原理将基于平移的嵌入方法从特定的三元组嵌入扩展到了文本感知模型提出了名为DKRL的模型。该模型的特点是对于事实元组论文采用了典型的Trans-E模型通过最大似然值获得实体和关系的嵌入对于描述文本论文使用了连续词袋模型和深度卷积模型对文本进行嵌入。连续词袋模型忽略了文本的词序而卷积模型会考虑词序对每一个实体DKRL都会学习语义的嵌入和结构的嵌入再通过右侧的一系列公式进行拟合。3. 需求和实现后续任务需要通过预训练得到词向量实体向量并且保证两者之间需要能够计算相似度同时也要保证实体向量和实体向量之间可以计算相似度。上文介绍的两个模型均可以满足该需求。右上的表格展示了几个不同的模型在链接预测任务上的效果联合模型即第一篇论文中的模型展现了较好的效果于是我们基于该模型对实体和词进行了训练得到了词向量、关系向量以及实体向量。该模型的效果具体体现在由图一左上可以看到“王者荣耀”这个词和“李白”的候选实体之间的相似度评分该分数表明模型学习到了词和实体之间的关联由图二右上可以看到虽然“唐代诗人李白”的文本描述中不存在“将进酒”一词但是模型也学到了其关联图三图四左下和右下显示模型也学习到了实体向量与实体向量之间的关系比如植物“小米”实体向量和水果“苹果”实体向量比较靠近而“小米公司”的实体向量和“苹果公司”的实体向量比较靠近。这些特性对完成后续的任务有很大的帮助。03算法应用1. 实体链接实体链接任务目标是把文本中的实体指称项即实体名称链接到知识库中对应的实体上。举一个例子来帮助大家理解实体链接比如问题“王者荣耀中的李白有哪些台词”为了解答这个问题我们需要① 识别句子中的核心实体“李白”② 从库中检索“李白”所有的候选实体③ 实体链接从众多的候选实体中找到正确的实体与句子中的“李白”进行关联实体链接的难点主要有两个方面实体会有不同的表达方式mention比如“青莲居士、李太白”也对应了李白这个实体同一个表达方式也会对应不同的实体比如说“王者荣耀中李白的技能是什么”“李白和杜甫并称为什么”这两句中实体的表达方式都是“李白”但是对应了不同的实体。左侧图中展示了实体链接的处理流程这里详细介绍一下实体消歧部分。实体消歧包括两个模块第一个部分是粗排第二个部分是精排。关于粗排为什么要做粗排处理在做候选实体生成时我们希望从库中获取尽可能多的相关实体确保没有遗漏正确实体。但这样做会导致消歧这一步骤被引入了太多的噪声造成消歧效率的下降。所以需要粗排模型来降低候选实体的个数。经过实验粗排后消歧准确率提升了3%预测的速度提升了50%而召回率仅仅下降了0.4%。举个例子比如“王者荣耀中的李白有哪些台词”这个问题在我们的库中“王者荣耀”的候选实体有71个“李白”的候选实体有59个。在粗排时我们会为每一个候选实体进行打分按照相关度从大到小进行排列选择每一个mention所对应的最相似的n个实体(Top n)作为精排的输入。如何实现粗排粗排模型要求高召回、高性能。我们采用了上一节中融合多元信息知识表示学习方法所训练得到的实体向量和词向量因为他们处在同一个向量空间中我们可以对其进行向量计算。定义了三个特征分别是Context和Coherence以及LinkCountContext 表示mention的上下文特征它通过候选实体向量和问题中的每一个词向量进行乘积运算得到用于发现问题中哪些词和候选实体相关Coherence 表示实体的一致性通过计算候选实体和问题中其他mention的候选实体相关性来实现LinkCount 表示实体的先验知识通过标注数据而来。利用一个多层感知机对这三个特征进行融合最终得到每一个候选实体的粗排分数。排列并选择每一个mention所对应的最相似的Top n个实体作为精排的输入。关于精排在粗排之后每一个mention的候选实体个数被大大降低此时我们会对这些实体进行精排处理。精排模型中我们利用Bert构建一个句子对二分类模型用来判断候选实体和问题中的mention相关度。具体流程如下① 该模型的输入是一个句子对text_a是标记了mention位置的文本text_b是候选实体的描述文本。句子对经过Bert编码之后取[CLS]向量再经过全连接层得到上下文特征② 合并粗排的三个特征进行全连接的融合训练③ 对候选实体进行二次排序④ 判断是否为未知实体⑤ 选择Top 1的实体作为mention链接的实体在模型训练时我们对训练方法进行了一些优化。利用知识图谱中的关系三元组构建消歧的样本关系三元组包括头实体、关系和尾实体头实体和尾实体有多种表达方式mention利用这些不同的表达方式我们可以去构建大量的正负样本来帮助我们去学习mention和实体之间的语义特征关系。经过第一次的预训练只需要再训练少量经过标注的线上数据模型就可以达到较好的消歧效果。2. 实体推荐实体推荐任务的目标是根据给定的实体推荐一系列相关的实体这两张图展示了我们的实体推荐的应用场景。我们对实体推荐的工作暂时还处于起步的阶段并没有考虑复杂的个性化推荐目前只关注实体之间的相似度。左图展示了实体链接如何应用于智能问答问题推荐问题通过SLU处理之后会得到其意图和主实体然后借助实体推荐得到相关的实体相关实体被用来构建相关的问题比如说”武汉大学周边好吃的“识别到其主实体为”武汉大学“、核心意图为”美食“以此推荐实体相关的问题比如说”华中科技大学周边有什么好吃的“”清华大学周边有什么好吃的“”武汉科技大学周边有什么好吃的“。同时实现了推荐意图相关的问题比如说”武汉大学周边有什么好玩的“”武汉大学周边有什么景点“”武汉大学周边有什么酒店“等等。右图展示了实体推荐在图谱自动化构建平台上的应用当用户搜索一个实体的时候平台会为其推荐相关的实体。实体推荐的难点在于“冷启动问题”即如何去寻找实体的相关实体。我们发现百科页面关系三元组以及新闻中的共现实体都可以作为相关实体进行推荐。于是我们对百科页面知识图谱中的关系三元组和经过实体链接处理的新闻中的实体进行抽取以类别为标准进行筛分作为实体推荐模型的正样本。而负样本可以从库中的其他实体中抽取。实体推荐模型分为两个部分表示模型和匹配模型表示模型利用第二节中的DKRL模型进行知识表示学习。学习关系三元组中的结构化信息编码部分使用Bert进行替换匹配模型利用DSSM模型复用了表示模型中学习到的参数将两个实体编码成向量通过计算余弦相似度来去衡量两个实体之间的相关度。3. 知识补全在构建知识图谱时需要从半结构化或者非结构化数据中抽取三元组但这些三元组难免会存在信息缺失情况比如左图中小米代表人物中林斌、王翔等人都缺失了超链接撒贝宁配偶、父母、妹妹也都缺失了超链接这就导致在构建知识图谱时不能获取完整的关系三元组。实体补全任务可以概括为针对已知的头实体、关系和尾实体mention的情况下关联库中的实体以补全三元组。我们的设计方案如下① 利用Schema去确定尾实体的类别② 通过尾实体的mention筛选得到尾实体的候选实体构造三元组③ 通过三元组分类模型判断构造的三元组是否正确④ 经过对这些三元组的分数进行排序之后选择Top 1且预测正确的三元组。三元组的构建也考虑了描述实体的文本我们再次利用了神通广大的BERT完成模型的构建参考了KG-BERT这篇论文。将已知的关系三元组如上图所示进行构造text_a是头实体的描述文本text_b是关系的文本名称text_c是尾实体的描述文本这些输入经过BERT的编码之后再经过一个全连接层计算得到语义特征并和另外一个结构化的特征进行融合最终得到一个分数。这里的“结构化特征”由蓝色框中的方程进行表示整个模型的loss可以用红色框中的方程表示。举个例子比如判断三元组{撒贝宁配偶李白}是否正确“李白”的第一个候选实体是正确的可以作为正样本其他实体都是负样本然后对模型进行训练预测每一对自动构建的三元组的分数按照从大到小的顺序进行排序选择分数大于0.5且Top 1的三元组作为正确的三元组补充到知识图谱当中。04总结与展望本文简单介绍了知识表示学习在实体链接、实体推荐和知识补全中的应用和word2vec一样通过知识表示学习得到的实体向量可以应用到很多场景中工业界实用最重要很多场景下对模型的复杂性很敏感选择模型需要综合考量。知识表示学习的探索之路还有很长同志们加油参考文献1. Wang Z, Zhang J, Feng J, et al. Knowledge graph and text jointly embedding[C] //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1591-1601.2. Zhong H, Zhang J, Wang Z, et al. Aligning knowledge and text embeddings by entity descriptions[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 267-272.3. Xie R, Liu Z, Jia J, et al. Representation learning of knowledge graphs with entity descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2016, 30(1).4. Xiao H, Huang M, Meng L, et al. SSP: semantic space projection for knowledge graph embedding with text descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2017, 31(1).5. Reimers N, Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks[J]. arXiv preprint arXiv:1908.10084, 2019.6. Yao L, Mao C, Luo Y. KG-BERT: BERT for knowledge graph completion[J]. arXiv preprint arXiv:1909.03193, 2019.7. 刘知远, 孙茂松, 林衍凯, 等. 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247.今天的分享就到这里谢谢大家。分享嘉宾峰会推荐7月10日DataFun将举办自然语言处理峰会届时将邀请包括来自小米等公司的多位重量级嘉宾就NLP的基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对话与交互、产业创新与实践、机器翻译与同传等话题进行深度分享欢迎小伙伴们识别二维码了解详情并报名参与本次峰会将全程直播 OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。
http://www.yutouwan.com/news/458320/

相关文章:

  • 哈尔滨速成网站建设文章标题-栏目名称-网站名 dede
  • 微信开发 网站备案吗php网站如何攻击
  • 网站建设报告实训步骤泉州网络推广公司
  • 网站建设的结尾深圳网站制作服
  • 有经验的高密网站建设建设网站所需的费用的估算
  • 小题狂做 官方网站广州网站建设推广方法
  • 男女上做床全播放网站安卓优化大师老版本下载
  • 深圳网站设计+建设首选网站关键词优化wang
  • 微信服务号绑定网站吗谷歌代理
  • 高端网站建设制作设计成都建设网站的
  • 糖果屋网站建设策划书网站开发的产品用什么形容词形容
  • 做网站的程序员进什么公司好网站要精细是什么意思
  • 赣州网站建设流程建设银行大冶支行网站
  • 川畅科技联系 网站设计网站开发a ajax
  • 广州网站建设q479185700棒网站群 主要功能
  • 自己做家具展示网站上海工程相关的公司
  • 济南seo网站排名优化工具软件推广怎么赚钱
  • 无锡知名网站制作商标设计网站免费
  • 58重庆网站建设在线相册jsp网站开发与设计
  • 企业网站排名优化方案建设网站了还能消除吗
  • 漳州企业网站开发网站建设详细教程
  • 网站广告看不到手游传奇网站999服
  • 广西网站设计公司做网站多少钱角西宁君博特惠
  • 哪个网站的ps元素好wordpress主题添加产品
  • 二级网站建设思路潍坊搜易网站建设
  • 建立网站培训讲义企业需要缴纳哪些税
  • 做网站每一年都要交钱吗短视频舆情
  • 做橡胶应该看什么网站东莞常平新地俱乐部
  • 民制作网站哪家便宜公司网站建设应包含哪几个板块
  • cnzz 网站跳出率查询网站建设丨金手指排名