当前位置: 首页 > news >正文

网站对于企业的作用公司网站建设多少费用哪儿济南兴田德润联系电话

网站对于企业的作用,公司网站建设多少费用哪儿济南兴田德润联系电话,企业官网免费,网址二维码在线生成本文转载自公众号#xff1a;机器之心。#xff1b; 8 月 24 日至 27 日在杭州召开的 2019 年全国知识图谱与语义计算大会#xff08;CCKS 2019#xff09;上#xff0c;百度 CTO 王海峰发表了题为《知识图谱与语义理解》的演讲。CCKS 2019 由中国中文信息学会语言与知识计… 本文转载自公众号机器之心。 8 月 24 日至 27 日在杭州召开的 2019 年全国知识图谱与语义计算大会CCKS 2019上百度 CTO 王海峰发表了题为《知识图谱与语义理解》的演讲。CCKS 2019 由中国中文信息学会语言与知识计算专业委员会主办浙江大学承办以「知识智能」为主题吸引了来自海内外的八百多名科研学者、工业界专家和知名企业代表参加。对知识的研究贯穿于整个人工智能的发展史知识图谱在人工智能技术领域的热度也逐年上升。王海峰认为知识图谱是让机器像人类一样理解客观世界的基石。在演讲中他用生动的实例展示了百度在知识图谱和语义理解领域的技术探索及应用并探讨了其未来的发展方向。以下是演讲实录非常高兴能有机会参加知识图谱和语义计算大会。我现在在百度负责的技术涉及互联网、大数据、人工智能等方方面面但是我的专业其实是自然语言处理、知识图谱。大概 26 年前我在哈工大在李生教授和赵铁军教授的指导下做机器翻译系统。当时主要是基于规则的系统也要用到知识那时的知识是把人类专家的知识编辑在规则里实现语言的理解、生成然后实现翻译。过去 20 多年这一领域从基础研究到应用都已经发生了非常大的变化。当然20 多年相比于自然语言处理这个领域 70 多年的历史来说还很年轻。自然语言处理这样一个有 70 多年历史的专业现在仍然欣欣向荣我想有两个方面的原因一方面是因为有大量用户的真实需求促使我们更多地投入这方面探索应用另一方面自然语言处理发展了 70 多年遇到的很多问题都还没有解决需要我们进一步深入研究。我首先从人工智能开始介绍。大家都知道人类历史发展到现在已经经历了三次工业革命每次工业革命都会带来翻天覆地的变化生产力的进步带来了整个社会的变革生活方式随之发生深刻变化。第一次工业革命使人类走向机械化时代第二次是带来了电力第三次是信息化革命。我们很幸运今天处在第四次工业革命的开端第四次工业革命的核心驱动力就是人工智能。当然人工智能是为了模拟人的能力需要包括语音、视频、图像、AR/VR 等感知方面的技术也需要知识图谱、语言理解等认知方面的技术。当然还有机器学习以及最近这些年很重要的深度学习等等。感知能力很多生物都有而且很多生物这方面的能力比人类强。认知能力则是人类特有的包括我们的语言和知识。我们通过语言的交流、知识的呈现知识呈现其实也是基于语言把知识传承下来。关于语言和知识不管是对于人类还是对于人工智能都是非常重要的。知识图谱是让机器像人类一样理解客观世界的基石。过去这些年AI 技术通过深度学习取得了非常好的效果尤其是在语音、视觉等感知技术上取得了非常大的突破甚至在很多方面深度学习达到的效果已经超过了人类。深度学习也给自然语言处理以及知识相关的技术带来了非常大的帮助但是我们继续深入研究、应用实践的时候会发现我们还需要更好地结合知识、推进知识图谱相关的工作才能取得更好的效果。基本的知识图谱会涉及到实体的属性关系每一个实体可能有若干个属性实体和实体之间有很多关系每一个关系基本上可以理解为是一个事实。因此知识图谱就是对客观世界的描述。百度 AI 多年技术积累和业务实践的集大成是百度大脑百度大脑发展了近 10 年的时间其中的知识图谱技术是从 2013 年开始做的。一方面知识图谱的规模在快速增长另一方面基于知识图谱来提供服务每天满足用户各种需求的量级也在快速增加。过去这些年百度知识图谱的服务规模大概增长了 490 倍。百度大脑技术能力的应用一开始主要集中在搜索引擎上之后开始突破互联网业务的范畴面向各种企业级的用户比如金融、客服、商业等发展各种各样的应用同时也进行 AI 技术开放比如通过百度大脑的 AI 开放平台让大家应用到我们的 AI 技术。下图所示是一个比较完整的百度语言和知识技术的布局。底层的基础就是知识图谱通过知识挖掘、知识整合与补全、分布式图索引及存储计算等步骤构建了包括实体、关注点、事件、行业知识、多媒体等等多元异构知识图谱。自然语言处理相信大家都不陌生一个相对完整的自然语言处理体系包括词法、句法、语义到篇章各个方面。构建一个知识图谱的时候这里面很多技术也会被综合使用。百度语言与知识技术一方面全面支持百度自己的产品比如搜索、问答、对话、机器翻译等等一方面通过开放赋能很多企业级的应用。广义来看知识图谱也是语言科学的一部分知识的获取和运用是理解语言不可或缺的反过来为了更好地去构建、挖掘知识图谱语言理解技术也是十分必要的语言与知识技术是相辅相成的。接下来我会从这几个方面来介绍一方面是多元异构的知识图谱构建这里面会涉及到图谱构建的一些应用包括复杂知识等等另一方面涉及自然语言处理技术的一些探索。当然我们的架构图远比我今天所讲的要完整。在实际应用中我们还会通过百度的开源开放平台进行数据和技术的开放。首先说多元异构知识图谱的构建。说到知识图谱首先就涉及到图谱的构建涉及到在开放的、海量的数据里怎么样去挖掘数据、构建超大规模知识图谱。我们人类学习知识是靠各种视觉、听觉等等去感知世界不断地建立和完善知识体系。机器如何学习或者说让一个机器的大脑怎么去学那就要靠数据, 比如互联网上海量的多形态数据蕴含了很多行业应用的有价值信息。首先我们从大量无标签非结构化数据中进行开放知识挖掘一方面我们基于多维数据分析和语言理解技术自动获取知识挖掘模板并通过不断迭代获取新模板、挖掘新知识另一方面我们基于远程监督学习来自动构建训练语料。为了去除自动构建训练语料中的噪声样例我们提出注意力正则化Attention Regularization技术基于实体上下文进行分析通过模型输出指导标注语料的选择。通过这样一套方法我们实现在千亿级文本中进行更精准地开放知识抽取。基于开放知识挖掘抽取了大量的 SPO 三元组需要对其进行归纳整理我们提出了自底向上的开放本体构建即从开放数据中挖掘实体和关系从海量实体关系中自动学习实体类别关系、类别上下位关系并逐层抽象形成本体结构实现知识体系的自学习和构建。利用这样一套技术以后本体规模增长了 30 倍同时事实覆盖也有一个稳定的增长。另一方面在这样海量的数据里有很多相似知识可能是从不同的数据、不同的文章里面抽取到的这些知识如何进行融合、去粗取精让它更准确、有效这又涉及到多源数据知识的整合。我们通过语义空间变换技术实现实体消歧、实体归一等等解决知识表示形式多样关联融合困难的问题。基于前面提到的这些技术我们现在构建了一个非常庞大的知识图谱里面含有 6 亿实体事实的量或者说各种关系量已经达到了 3780 亿。比我们人类大脑里面储备的知识多得多。基本的知识图谱构建了以后真正要用于各种真实应用又涉及到很多更复杂的知识。所以我们从简单实体拓展到复杂事件可以描述事件的动态、时序、空间、条件、概率等等关系。下面我们说一下复杂知识。比如桃园三结义的照片在没有任何知识的情况下只能识别出画面中有三个人有酒有树。但是结合实体知识我们可以知道这三个人的身份和更多的信息比如树是桃树。进一步基于事件知识我们知道是东汉末年刘备、关羽、张飞三人在桃园结义。有了事件知识以后还可以对动态变化的客观世界进行建模。事件图谱以事件为基本单位表达事件相关的元素以及事件间的关联关系比如图中的内马尔转会中间最左边是相似事件——姆巴佩转会, 中间则以时间为线从皇马开价、被评为最佳球员、皇马和巴萨的争夺、到达成转会协议……形成了一个完整的事件演变脉络。而参与事件的角色称为事件论元如内马尔、姆巴佩、巴萨、皇马等等与对应的实体图谱相关联。完整的事件图谱技术包括底层的数据事件图谱的构建构建涉及到事件抽取、事件关系抽取、事件检测等技术事件图谱的认知计算例如事件链接、事件计算、事件推理事件计算包括重要性计算、热度计算、质量计算、相似度计算事件推理包括事件关系推理、事件论元预测、事件演化预测等。现在我们基本上可以做到分钟级的热点事件收录实现千万量级规模的事件库有十几个领域、4300事件的类型。事件图谱应用比如搜索热点「华为正式发布鸿蒙」可以呈现出完整的事件发展过程帮助用户清楚地了解事件的来龙去脉又如三峡大瀑布景区停业紧急通知涉及地图信息点的发现、更新。说完了复杂知识我们再说行业知识。行业数据量非常庞大但是真正应用在一个行业里的时候都需要转化为行业相关的专业性知识。行业知识需求到底大到什么程度举一些例子研究报告认为到 2020 年行业数据的体量会是非常巨大的比如说法律专业每年产出 4 亿卷宗医疗方面的数据会提升 48% 以上。还有一些行业是知识密集型的而运营商会用到很多的人工客服中国有全职客服 500 万人人力成本巨大。另一方面传统行业对于大数据的应用比例还是很低的比如金融行业非结构化数据占 80% 左右有效利用率只有 0.4%而人工构建知识图谱以 freebase 为例每条人工成本大约为 2.25 美元也都不便宜。与通用知识图谱相比行业知识图谱有共性也有所区别。比如说通用图谱相对浅层但覆盖非常广。因为通用知识图谱主要是以互联网、大数据为基础的。大家知道互联网经过 20 多年的发展已经和人类日常生活的方方面面都密不可分了某种程度上互联网可以被理解为客观世界的一个映射。这个庞大的网络能够构建很多种图谱但是真正涉及到某个行业的非常细致、深入的知识图谱互联网不能都覆盖到。所以很多行业的知识图谱是相对封闭的一般是由一些专家去构建、去标注。从图谱服务的角度通用图谱可以让大家都去应用但是行业图谱是针对特定行业的需求定制化程度比较高也有不同的应用方向。所以以通用图谱为基础面向行业的开发者在图谱开发的时候会涉及到一系列特有问题。基于这样的背景我们构建了一体化的行业知识图谱平台将多年积累的通用图谱构建能力迁移至行业建设了行业图谱的基础架构和构建平台以及智能问答、语义检索、推理计算、智能推荐、内容生成等基础能力组件支撑行业应用并且针对行业特点实现一些优化服务于不同领域的用户。这里简单介绍一下医疗的知识图谱。为了构建一个医疗场景的知识图谱我们跟很多合作伙伴合作构建了这样一个框架包括结构化的解析、实体链接、人机结合、因果关系学习、诊断路径挖掘等等。我们可以看到专业医疗图谱涉及到医院、医师、疾病等等各个方面通过医疗的认知计算提供各种医疗临床辅助决策服务。多媒体知识图谱。今天我讲的题目是知识图谱和自然语言处理但实际上人类几千年传承靠知识来做载体还包括了语音、视觉以及各种各样的形式。现在视觉类的产品坦率来说都不智能。比如计算机视觉技术可以识别但识别出来之前如何将这些孤立的数据联系起来还是跟图谱相关。我们可以基于图谱把知识关联起来进行它们之间的关联与计算进而能够做结构化的语义理解。大家看到这是《大河唱》的一些片段。这些片段里面我们通过综合应用计算机视觉技术、语音识别技术、自然语言理解技术把其中的语音、视觉、文本融合起来并通过与背景知识的关联形成对视频的深入理解。接下来介绍知识增强的语言处理技术。如前面所说一方面语言理解是我们发现知识很重要的基础另一方面有了这些知识可以更好地帮助我们做人工智能。在语言方面首先介绍语义表示。我们知道自然语言存在很多歧义同时一个意思也可以用不同的词来表述句子表达的形式非常多。因而好的形式化语义表示是计算机处理语言的基础语义表示可以分为形式化符号表示和统计分布式表示。随着深度学习的兴起统计分布式语义表示这几年很受欢迎。简单回顾一下历史相信大家都很清楚2003 年图灵奖获得者 Bengio最早提出了前馈神经网络语言模型这些年得到了很大的发展这两年出现了很多基于分布式表示的预训练语言模型。今年百度先后发布了两版语义理解框架 ERNIE。ERNIE1.0 是基于知识增强的语义表示模型。我们为了训练这些模型使用了包括百度百科、新闻、对话等等海量的多样化语料同时强化了中文的词、实体等先验语义知识从而得到更好的语义表示模型。在 1.0 知识增强的基础上我们希望不断更新这个系统ERNIE2.0 在知识增强的同时又增加了持续学习的能力通过基于多任务学习的预训练任务迭代不断提升模型性能。通过对百科、对话篇章结构、网页搜索、语义关系等超过 13 亿知识不断地学习不断地积累ERNIE 在多项中英文自然语言处理任务上取得了业界最好效果。基于语义表示我们可以做更复杂的语言理解任务, 例如机器阅读理解。机器阅读理解就是让机器来阅读文本并且回答相关的问题。知识对于机器阅读理解会起到什么作用呢比如这个例子问的是《人在囧途》是谁的代表作仅靠文本自身的内容是不够的需要基于一些外部知识来得到想要的答案。为此我们提出文本表示和知识表示融合的阅读理解模型 KT-NET通过融合前面讲的知识图谱增强文本阅读能力。这个技术在实体对话等很多领域已经得到了非常好的应用效果。阅读理解能力也广泛应用于搜索产品。现在我们的移动设备越来越小而大家的工作生活节奏越来越快希望搜索不再像以前是一条条的 URL、摘要更直观、准确的结果是大家更希望看到的。这里面就涉及到智能问答的技术比如「香格里拉酒店的老板是谁」这个问题大家就需要很直观的回答。有时智能问答不仅仅是直接给出一个答案就可以更多的应该是一段话来进行高度相关的解释。比如面对「煎鱼怎么不粘锅」这个问题我们会给出方法一、方法二两个回答。对于聊天我们提出基于知识的主动聊天技术。目前相对普遍的技术是用户问一句然后机器进行回答用户主动地问机器被动应对。而真实场景的聊天用户是希望机器可以主动地发起对话的。于是我们设计了基于知识驱动的自主对话任务让机器根据给定的知识图谱信息主动来引领对话进程达到信息充分交互。基于百度飞桨PaddlePaddle我们开源了检索模型、生成模型两个主动对话的基线模型。同时我们举办了一个知识驱动的对话竞赛这个竞赛影响很广泛参与度很高队伍报名数 1536 支提交结果数 1688 次。最后介绍一下语言生成包括机器辅助写作和智能自动创作。现在内容创作过程中面临一些痛点包括捕捉不到热点信息实时报道速度不够快也包括人工审核成本高、搜集素材费时费力、创作用词缺乏灵感、多模态内容需求等等。这些问题借助我们的技术都可以缓解。创作前可以辅助选题、激发灵感包括热点发现、热词分析、事件检索、观点分析等等。创作中可能需要更多辅助的素材把很多相关的内容呈现出来这个时候需要做信息的推荐加入一些领域知识库一些历史相关的事件脉络帮助写作。当然还有标题的生成这个也是很有技术含量的。创作后保证质量、提升分发。保证质量包括文本纠错、低质检测、词语润色提升分发包括添加文章标签、自动摘要、文本分类。这是一个辅助写作系统完整的架构图。这是一些辅助写作示例。第一个热词分析是以「中美贸易战」为例第二个就是事件脉络第三个是标题生成最右边是文本纠错、词语润色、文本标签。以上主要是通过辅助写作提升效率让作者从重复工作中解放出来。另外一方面机器也可以自动创作能够实时的追踪事件的波动自动把相关的信息汇聚生成文章覆盖重要信息。相比人工写作既省时省力还可以提升稿件质量应用程度非常高也非常广。这是基于结构化数据自动生成新闻的基本过程包括宏观规划、微观规划、表层实现。为了实现智能创作百度打造了智能创作可视化平台。上述语言和知识技术都是基于百度飞桨深度学习平台实现的飞桨是国内唯一功能完整、开源开放的深度学习平台。其中 PaddleNLP 是中文语言与知识模型及数据集开放了大规模的数据集包括阅读理解、对话、语音翻译、信息抽取、实体链指数据集等等。提供基础网络支持序列标注、文本分类、语义匹配、语言生成等等各种类型任务还包括百度最新的前沿研究成果。这个是百度大脑语言与知识技术开放平台全景不仅包括知识表示、语义理解等基础技术还包括应用平台。比如翻译开放平台大家可以直接调用翻译平台进行翻译任务。翻译方面我们提供多模翻译、领域翻译、通用翻译等多项领先技术。此外还有 UNIT 平台可以进行对话配置与训练以及行业知识图谱平台、智能创作平台……此外百度大脑还包括面向各种行业场景化的解决方案。最后百度愿与学界、业界同仁一起打造合作共赢的 AI 开放生态。我的报告就到这里谢谢大家OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.huolong8.cn/news/20387/

相关文章:

  • 吉林新农村建设网站附近装修公司联系方式
  • 网站建设学习网公司有哪些住房和城乡建设部网站证书查询
  • 上海网站营销网络设计课程培训
  • 高端大气的网站制作申请域名建立网站
  • 建设与管理局网站设置网站的默认页面
  • 色一把做最好网站定制高端网站建设公司
  • 中英文网站如何建设济南做网络安全的公司
  • C 网站开发招聘邵阳棋牌软件开发
  • 富阳设计网站网页在线制作图片
  • 制作公司网站 优帮云上海网站建设怎么弄
  • asp网站生成泰安网站制作公司电话
  • 用网站做平台电商网站构建预算方案
  • 育才网站建设关于未备案网站
  • 网站被抄袭WordPress博客主题免费
  • 网站建设包括沈阳网络科技公司有哪些
  • 学网站开发的软件怎么免费弄网站
  • 江苏省建设厅网站公示重庆专业网站推广时间
  • 平顶山哪里做网站刚刚封城最新消息2021
  • 惠城区城乡规划建设局网站域名查询 阿里云
  • 门户网站的推广方案中国风网站建设
  • 浙江五联建设有限公司网站wordpress最新主题下载地址
  • 宁波网站建设开发门户网站建设参考文献
  • 免费公司网站制作如何成立网站
  • 北京市住房和城乡建设厅网站wordpress5.2.2怎么改中文
  • 仿58网站怎么做设备报价单模板
  • 哈尔滨网站建站模板简单学校网站模板免费下载
  • 用新浪微博做网站看课学校网站建设
  • 宜州做网站需要多少钱修改wordpress ftp端口
  • 海星wap建站网站建设南京
  • 卯兔科技西安网站建设wordpress打开只显示代码