当前位置: 首页 > news >正文

看上去高端的网站网站建设和网站开发的区别

看上去高端的网站,网站建设和网站开发的区别,代码网站推荐,广元市建设局网站首页本文转载自公众号#xff1a;DataFunTalk。分享嘉宾#xff1a;李凤麟 阿里巴巴 算法专家文章整理#xff1a;付一韬内容来源#xff1a;2019知识图谱前沿技术论坛出品社区#xff1a;DataFun导读#xff1a;阿里小蜜是阿里巴巴服务领域的重要人工智能产品#xff0c;是… 本文转载自公众号DataFunTalk。         分享嘉宾李凤麟 阿里巴巴 算法专家文章整理付一韬内容来源2019知识图谱前沿技术论坛出品社区DataFun导读阿里小蜜是阿里巴巴服务领域的重要人工智能产品是服务于阿里巴巴经济体、商家、企业和政府的对话机器人家族包括阿里小蜜、店小蜜、云小蜜。小蜜机器人是基于大数据和人工智能技术形成的智能化、体系化客服系统可以辅助企业智能决策、节约服务成本、提高服务效率、提升用户体验。作为阿里小蜜的基石知识是小蜜体系中不可或缺的组成部分。小蜜的知识不仅仅包括常见的 FAQ还包括词组、知识图谱、机器阅读文档等丰富的结构形态。本文主要分享阿里小蜜体系中知识的结构化以及在实际场景中的应用。本文的主要内容包括以下几点阿里小蜜的简介知识的结构化基于结构化知识的应用KBQA 和 EBQA展望和挑战▌阿里小蜜的简介阿里小蜜机器人是一个对话机器人家族体系不仅是指支持经济体生态的阿里小蜜还包括了支持商家生态的店小蜜以及支持企业生态的云小蜜。在机器人的底座是一套体系化的支撑平台涵盖机器人的开发、配置、训练和知识等重要方面。其中本文主要介绍的知识云是阿里小蜜的新一代知识库系统支持基于词组、FAQ、知识图谱、机器阅读文档在内的丰富的知识体系为阿里小蜜提供高效可靠的知识服务。▌知识的结构化1. 小蜜的 AI 闭环在小蜜的体系中我们通常基于知识来开发算法模型。在模型的冷启动阶段我们会借助智能辅助产品 AIBoost通过人工标注、算法推荐、数据增广相结合的方式来产生模型的训练语料。在模型开发上线以后针对模型不能回答的问题我们会回流补充到训练数据集中继续训练和优化模型。如果发现是因为知识缺失造成不能回答我们会对知识进行相应的补充。整个过程构成了一个完整的 AI 闭环。2. 知识结构的演进在开始阶段小蜜采用 QA 体系作为主要的知识结构并且取得了非常不错的效果。QA 结构具有简单易用、冷启动方便、算法成熟的一系列优点。但是随着场景越来越丰富和复杂QA 的解决能力遇到了瓶颈的问题。这是由于 QA 体系存在着一些缺陷。其一是知识的类似性或者冗余性。例如双11的报名入口在哪 和 双12的报名入口在哪这两条知识都是关于 报名入口但是属于不同的活动。如果采用 QA 的方式每个活动这种类似的知识都必须单独枚举出来实际业务中不仅需要大量的知识维护成本同时对算法模型的定位匹配也会造成很大的干扰。另一个缺点是 QA 缺乏推理能力例如我现在还能不能参加今年的双11 这个问题是一个关于时间节点的知识。其实在双11的知识条目里面已经清楚的描述了参与报名的时间段。但是在传统的 QA 体系下这个问题是没法去进行推理和准确回答的。3. 知识图谱提到知识的结构化我们首先会想到的通常是知识图谱 ( KG ) 和经典的三元组结构实体-关系-实体 和 实体-属性-值 这样的表达。但遗憾的是这样的经典三元组结构表达能力是有限的在实际场景中无法全面的表达业务知识。下图列举了实际场景中的一些 QA 知识并总结了知识结构化的一些难点。4. 知识的结构化表示因为经典三元组表达能力的局限在阿里小蜜中我们重新设计了知识结构。主要分为两个层级模式层和实体层❶ 模式层在模式层里面我们定义类型、属性和值 ( 以及关系 )。其中类型可以包括实体类型和事件类型对于属性我们也做了一个扩展支持子属性也就是说我们的属性是有层级关系的可以组成属性链对于值的定义除了保留原来 Text/字符串 ( Built-In 类型 ) 外还加入两个新的类型Key-Value 类型和 Compound Value Type ( CVT ) 类型。我们的这些扩展可以充分增强 KG 的表达能力应用于实际业务知识的表达和建模。❷ 实体层实体层是对模式层的实例化。在实体层里面我们采用类似的 实体-属性-值 和 实体-关系-实体 来对知识进行建模。下图是结构化知识表示的一个示例。其中营销工具 是一个类型店铺宝是一个实例一种具体的营销工具。定义预热收费标准优惠规则 是属性。其中预热 的属性值是一个 KV 结构 ( 可以支持更为精细的定位 )收费标准的属性值是一个 CVT ( 不同的 BU 不同的商家类型收费标准不一样 )优惠叠加规则 和 优惠限购规则 是 优惠规则 的子属性。5. 知识的结构化实践在实际的落地过程中我们从 QA 知识和语料出发来进行具体的知识结构化。整体步骤是先进行基于短语的领域词挖掘然后基于挖掘的领域词进行概念/实体提取进一步获得属性和关系然后人工校验并且设计更为精细和复杂的 CVT 结构。下面分别对每一步骤进行详细介绍。❶ 领域词短语挖掘对于基于短语的领域词挖掘我们先从语料库中自动产生大量的 n-gram 候选集 ( n 是一个正整数例如2~8 )然后使用电商词典对候选集进行初标得到一个训练样本集。以此为基础我们采用随机森林采样正负样本训练多棵树来构建分类器以对候选短语的质量进行评分。分类器的特征包含两类一类是 Wide 统计特征频率、凝聚度、自由度等等另一类是 Deep 语义特征字向量、词向量、基于词向量的内部相似度等。最后我们使用预训练的 BERT 领域语言模型对前述分类的候选短语进行修剪 ( pruning ) 得到领域词。❷ 概念/实体提取 ( Chunking )在概念/实体提取部分我们在基于字的 BILSTMCRF 框架基础之上融入了词性、Pre-train 和语言模型知识。我们对嵌入层 ( Embedder ) 做了两点扩展1. Embedder 的输入是已经分好词的句子词的向量由两部分拼接组成一部分是 Word2Vector 预训练好的词向量另一部分是经过一个 BiLSTM 模型处理后的首尾字符拼接向量2. 在第一层向量拼接之后送入到第二层 BILSTM然后其输出和我们预先训练好的 ELMO 领域语言模型的结果进行拼接。编码层 ( Encoder ) 采用一个 BILSTM 模型并且我们用通用领域的语料进行了 Chunking 任务的预训练 ( Pre-training )。解码层 ( Decoder ) 采用 CRF。实验结果表明词性、Pre-train语言模型知识有助于效果的明显提升。在此基础上我们进一步把嵌入层换成了基于领域预料微调的 BERT 模型使用 BERT BILSTM CRF 的框架效果得到了继续有效的提升。❸ 关系抽取 ( 分类 )对于关系的抽取我们尝试了图神经网络 GCN 和 BERTBERT 的表现效果更好。在 BERT 的输入中我们引入概念/实体信息 ( 图中的 吃母乳 和 添加辅食)对 BERT 的输出中实体对应的多个字向量进行 averaging 和 FC ( full-connection ) 操作另外我们尝在实体两侧加上分隔符 ( $ 和 # ) 来显示的告诉模型分隔符中间是概念/实体可以进一步得到明显的提升。系列实验不仅证明了预训练语言模型的有效性而且验证了引入实体知识可以有效的提升效果。❹ Schema 编辑器通过上述的短语挖掘、概念/实体提取、关系/属性提取我们可以得到初步的知识结构。这个结构需要业务同学进行人工校验同时对属性值的 CVT 结构进行设计和加工最终形成我们的 Schema 结构并且完成实体级别知识的录入。❺ 实体编辑器▌基于结构化知识的应用KBQA在知识结构化之后我们选择采用 KBQA 来在实际场景中进行落地。具体地我们选择了 KBQA 的多约束图排序方案通过识别用户问题中的实体、属性、约束 ( CVT 子属性 )将用户的问题转换成可能的多个候选图然后对候选图进行排序选择得分最高的图根据情况进行推理改写并最终查询 KG 返回相应的结果。在这个过程中可能还需要进行推荐或者反问以应对语义不清或者问题不完整的情况。下图展示展示了 KBQA 的基本问答流程。1. KBQA 问答流程例如用户问 双十一怎么参加淘抢购 ( 淘抢购是双十一的一种玩法 )这里面识别的主实体是 双十一属性分类结果是 报名流程约束识别是 玩法淘抢购最后根据这些片段组成的查询图去 KG 中获取答案。2. KBQA 定位❶ 实体属性约束对于 KBQA 的实体识别我们采用了基于词典的规则方法和基于 CNNCRF 的实体识别模型。对于属性识别我们采用了基于 CNNBiGRU Attention 等比较成熟的深度学习分类模型。对于约束识别采用了关键词匹配和相似匹配的方法。接下来我们着重对图排序、类型推理和推荐进行介绍❷ 图排序在识别出来实体、属性、约束的候选之后我们会把相应的候选组合成一幅候选图。例如上图右上角就对应了用户问题 双十一怎么参加淘抢购 的一个候选图。需要注意的是因为实体、属性、约束都可能存在多个候选所以这幅图仅仅是是多幅候选图中的一幅。上图表格中的每一行都是对一幅候选图的特征刻画Label 表示了当前图是否是对应的答案。我们采用 LambdaMart 进行排序这里 Lambda 刻画了排序模型训练中每一幅候选图的梯度 ( 这幅图该向前排还向后排以及朝这个方向移动多少 )MART 就是我们熟悉的 GBDT来学习这个梯度。❸ 类型推理在实际场景中我们常常遇到很多需要枚举的实体型知识。例如优惠券和单品宝能不能一起使用这里面 优惠券 和 单品宝 是两个实体其中 优惠券 是店铺级的优惠单品宝 是单品级的优惠。因为无论是店铺级还是单品级的优惠可能都存在很多种如果我们进行枚举的话不仅数量很大而难以维护也容易相互干扰造成定位错误。针对实体型知识我们从实体级别抽象到类型级别例如 店铺级优惠和单品级优惠可以叠加使用进行相应的表示和推理来进行问答。上图展示了如何对类型级别的知识和实体级别的知识进行表示和关联。问答过程中如上图所示经过类型推理以后问题 优惠券和单品宝能不能一起使用 会被改写成 店铺级优惠和单品级优惠能不能一起叠加使用并且最终通过查询 KG 返回对应的答案。采用类型级别知识的表示和类型推理一方面可以大幅降低需要维护的知识数量同时可以有效的改善定位准确率并且在答案中清晰的给出原因解释。❹ KBQA 推荐用户问题还有一个经常出现的情况就是 语义不清。例如用户说了 淘宝直播其实我们并不知道他具体想要问什么。这种情况下一般做法是根据热点进行反问。在这里我们做了进一步的扩展采用了 DeepCrossNet 技术来进行推荐。我们对 Query 进行实体识别然后基于热度、问题上下文、Schema 结构等信息对候选的属性进行排序推荐有效的提升了推荐点击率。3. KBQA 的 DEMO 示例KBQA 目前已经在阿里小蜜的大促机器人、商家机器人 ( 万象 )、淘宝直播的直播小蜜机器人等场景实际落地并且经受了双11的洗礼取得了非常不错的效果。下列 Demo 对 KBQA 的问答效果进行了一个简单的展示。基于类型推理的问答示例基于 KV 的问答示例基于 CVT 的精准问答示例基于知识结构的推荐示例淘宝直播的问答示例▌基于结构化知识的应用EBQAKBQA 着重解决实体类知识问答。在我们的实际场景中还经常存在事件类的知识问答场景 ( EBQAEvent-Based Question Answering )。事件问答场景针对用户的 WHY、HOW、HOW NEXT、WHETHER 等类别的问题不仅仅需要精确的给出答案 ( 能不能 )通常还需要解释为什么 ( 为什么能或者为什么不能 )。这类问题QA 体系也是很难有效支持的除非把所有的情形及其组合进行枚举但是这样做实际上是走不通的必须通过对底层的知识结构进行改造。上图的左边展示了结构化以后的知识表示右边部分展示了 EBQA 的定位和推理过程。针对用户的问题 我被假货扣分了怎么办我们首先定位出目标事件 扣分处罚 以及相应的属性 如何处理。在我们的知识体系中从 扣分处理 我们可以依据 下一步 关系推理到关联事件 申诉撤销处罚然后根据 如何处理 关联到该事件对应的属性 如何申诉。因为 如何申诉 依赖于 是否可以申诉我们需要进一步的推理并最终根据 CVT 表格来获悉是否支持申诉如果支持的话需要同时给出申诉入口 ( 如何申诉 的属性值答案 )如果不支持的话需要根据 CVT 结构给出对应的解释。需要注意的是EBQA 不仅支持针对已经发生事件的问答还支持假设性的事件问答 ( 如果被假货扣分了我应该怎么办 )。EBQA 和 KBQA 的问答流程链路大体相似采用基于约束图排序的方案但是在事件识别和属性/关系识别部分存在一些差异。❶ 事件识别事件识别时我们首先采用 BILSTMCRF 模型对句子断句然后采用 TextCNN 分类HCNN 排序的方法给出候选事件最后根据规则和 CNN 分类来确定目标事件。需要注意的是在给出候选事件的时候我们同时也给出了候选事件的状态是否已经发生来协助 CVT 中条件的判断。❷ 属性识别对属性识别我们也采用了 TextCNN 分类HCNN 排序的方案。EBQA 中的事件识别和属性识别之所以采用分类排序的叠加方式是因为事件相关的问题表述非常 subtle。例如我该怎么处理 和 我该怎么办前者对应 如何处理 这个属性而后者对应 下一步 这个关系。EBQA 的问答示例▌总结和展望1. 知识结构化的思考经过在实际业务场景中的探索和实践我们对知识的结构化及其应用有了比较深入的思考和认知。一方面知识结构化有不少可观的优点可以准确回答、支持推理、可解释、可复用等等与此同时她也存在其局限性主要的一点是 Schema 的构建需要业务专家参与而难以规模化。❶ 适合场景适合实体或者事件比较多的场景需要精细化回答的场景需要推理、解释的场景❷ 优点模式层知识结构稳定知识可以传承和培训支持精细化问答推理可解释支持针对语义不清的推荐可以更好的解决用户问题支持多样化的展示方式更好的用户体验训练语料可高度复用新增实体不需要重新训练可以快速上线❸ 局限Schema 成本模式层构建成本较高 ( CVT )规模化有较大挑战附加成本熟悉的门槛较高配套的工具体系需要完善2. 展望和挑战接下来我们一方面致力于打磨算法和工具来降低业务知识图谱 Schema 的构建成本另一方面会着眼于领域性常识知识图谱的构建以商品和服务为核心融合不同领域的常识性知识以让小蜜能更好的理解和服务用户。这其中低资源的挖掘多模态的融合 ( 文本图片视频 )知识的有效表示和融入等问题是我们需要着力解决的重要技术挑战。分享嘉宾▬李凤麟 (风奇)阿里巴巴 | 算法专家  OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.huolong8.cn/news/32211/

相关文章:

  • 汕头网站推广找哪里如何选择企业网站建设
  • 正规网站制作全包孝感房地产网站建设
  • 网站建设 素材北京工业产品设计公司
  • 三网合一网站开发如何用html制作一个投票网页
  • 建站平台 phpwind网站建设 电子书
  • 使用php做网站wordpress最受欢迎的主题
  • 长沙建站价格wordpress优点缺点
  • 刷会员网站怎么做怎么在淘宝上做网站
  • 网站建设合同约定三年后wordpress获取文章发表时间
  • 厚瑜网站建设做跨境电商的人才网站
  • 深圳网站建设q.479185700惠wordpress黄聪文件上传
  • 如何让网站快速收录你成都黑帽seo
  • 湛江做网站制作博客网站源码
  • 建设管理网站首页农业特色网站建设
  • 网站前端用什么语言在线详情页制作
  • 官方网站下载免费软件施工企业如何发展新质生产力
  • 中国建筑网官网一级建造师管理优化前网站现状分析
  • 网站开发 面试wordpress调用百度网盘视频播放器
  • 哪些网站的网站怎么做的怎么创网站赚钱
  • 云南网站设计网站搭建用什么软件
  • 有什么做美食的视频网站网站怎么做黑链接
  • 成都有实力的网站建设建设工程教育网题库
  • 最好的品牌设计网站建设网站建设最新教程视频教程
  • 2018年淘宝客网站怎么做wordpress仿站函数
  • 服务器里面如何做网站表白网页在线生成网站源码
  • 东莞常平网站设计公司起名自动生成器
  • 网站制作教程步骤为什么网站显示建设中
  • 用电脑记事本做网站怎么做宣传网页
  • 中山做app网站公司吗您与此网站之间建立的连接不安全
  • 自己做网站 套模板广州必去的景点排名