当前位置: 首页 > news >正文

备案 网站服务内容手机浏览器app下载

备案 网站服务内容,手机浏览器app下载,基于asp的网络课程网站开发,怎样做网页制作视频词是语言系统中重要的语言单元#xff0c;词语是开展文本处理的基础#xff0c;在语义表示上具有比字符更丰富的表达能力。词语具有领域特性#xff0c;不同的领域具有不同的词汇体系#xff0c;如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种…词是语言系统中重要的语言单元词语是开展文本处理的基础在语义表示上具有比字符更丰富的表达能力。词语具有领域特性不同的领域具有不同的词汇体系如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种领域性的特性一方面可用于领域分类、领域标签化、领域区分、关键词提取以及特征词提取也可支持知识图谱知识体系如本体与实例体系的搭建。另一方面也提出了领域词汇的抽取领域词汇之间语义关联的抽取、领域词汇的扩展、领域词汇知识库的构建等多项任务。与此相关的领域词汇挖掘技术是自然语言处理中的一项关键技术也是支持公司业务落地和应用的必备能力之一。本期文章将紧紧围绕领域词汇知识库以下简称领域词库这一主题对数地工场的领域词汇功能、领域词库的常见类型、领域词汇的构建技术和相关案例进行介绍。 一、数地工场的领域词汇功能 数地工场 (https://nlp.zhiwenben.com) 已经上线2周时间在语义计算模块上提供了针对词汇的语义联想和概念抽象两项功能在信息抽取模块提供了关键词抽取功能此后将提供其他相关功能。 1、 语义联想 数地工场中的语义联想提供了针对用户输入词语路关联的近义词、反义词和相关词接口例如输入“尊敬”一词可以联想出“尊崇”、“崇敬”、“敬服”等近义词“侮慢”、“蔑视”等反义词“叩首”、“祭拜”等相关词可用于词语拓展和关联推荐等应用。 2、 概念抽象 概念抽象指针对用户输入的某个词语得到该词语的迭代上位抽象路径该路径在事件抽象、关联词拓展方面、加强对既定事物的认知等方面大有用处。例如对于“航空母舰”并不了解的人来说可以通过概念抽象这一功能得到了“航空母舰-船-交通工具-器具-无生物-物质-万物-实体”这条抽象路径进一步形成“船”和“交通工具”的认知。 3、 关键词抽取 关键词抽取可针对段落或文本进行处理得到具有代表性的特征词集合这一项常作为文本特征提取及表示使用。例如针对当前“美国伊朗局势升级”这一主题下的文章可以通过关键词提取技术提取出相关的关键词列表如“伊朗”、“美国”、“美伊”及相应的权重等。 二、领域词库的常见类型 不同的领域词库能够支持不同的应用领域词库可以细分为领域特征词库、领域停用词库、领域情感词库、领域抽象词库、领域语义词库、领域事件词库等6种词库。 1、领域特征词库 领域特征词库与领域强相关具有领域区别能力形成的词语集合如体育领域中常见的“篮球”、“足球”等词文学领域常见的“令狐冲”、“鲁迅”等词、敏感词库常用于不同领域文本的分类任务如医疗领域特征词库、军事领域特征词库、治安领域特征词库中常作为贝叶斯方法的特征词以及基于机器学习方法的分类特征而存在。另外不同领域的特征词典常可用作业务指标词、数据项指标词。如金融领域中的财务词表、上市公司词表曾用名、公司简称词表、数据指标词表等在进行特定财务数据的提取中能够带来帮助。需要注意的是领域特征词库往往与某个领域的具体业务内容相关具有专业性的特征往往只有相关领域的专家或业务人员才能够对该领域的词进行有效区分。因此领域特征词库在构建的过程中往往不能完全寄托于机器自动发现而是需要专业人员进行标注筛选完成。 2、领域停用词库 停用词库往往是作为特征词提取中的一项重要外部资源而存在的这个在文本分类、问句解析、句子主干化方面应用较多常可以帮助过滤无关信息。领域性是停用词的一大特征同一个词在某个领域是停用词在另一个领域又不是停用词如“开心”一词在军事领域可以常忽略不计但在人类情感文本领域则是关键特征。领域停用词库在构建阶段与领域特征词一样需要人工加以校验过滤。但在算法逻辑上可以通过低频过滤、领域通用词过滤、基于功能词性过滤如过滤介词、副词、连词、助词等虚词的方式进行。 3、领域情感词库 领域情感词库常作为情感分析、舆情计算中的一项重要外部语义计算资源而存在通过对不同的情感词的极性以及对应的权重或者强度进行标记采用基于依存语义、基于窗口的情感计算规则能够完成相关篇章、段落、句子级别的情感判定以及系列度情感对提取任务。目前开源的可用的情感词库有一些如大连理工大学开源的情感本体库香港大学、台湾中文大学开源的情感词库等但这些都是通用域的在计算领域文本的情感时会出现一定的阻碍如“升高”这一词在形容“信心”、“经济发展速度”上时是一种正向的情感倾向但在描述“血压”、“血脂”、“自杀率”等疾病上则表现出截然相反的一种情感。因此在进行基于传统词典与规则的情感判定上往往需要加建立起不同领域的情感词库加以区分和领域适应。 4、领域抽象词库 领域抽象词库又叫做领域概念词库往往作为知识图谱中的知识本体描述词汇以及语义推理上重要资源而存在。“抽象性”以及“概念性”是这类词库的重要特性抽象性决定了这类词在对具体客观实体的描述上不再具有实例描述属性而是更为抽象和上层的如“动物”、“生物”、“人物”等往往可以表示成某种实例的类型名称即更偏向于类型层这可以在百度百科、互动百科等百科分类体系、商品目录分类体系以及各个垂直网站的导航目录层级上对知识实体的描述提供了较好的结构层次性特征和可用性。这种可用性体现在这种结构路径的可用性可以通过迭代向上抽象的方式得到某个领域词的抽象路径可以通过这种抽象结构完成不同层级的实体聚合以及实体扩展。抽象路径与实体扩展在搜索拓展、语义推荐上能够得到很好的运用。 5、领域语义词库 领域语义词库特性主要体现在“语义”二字上是从语言的语法特点和功能出发来说的。语法上包括北大的语法信息词典北大的实体概念词典、Hownet语义词典、CWB词典等这几个语法词库在对词的语法功能上都做了不同的工作对词的内部结构信息进行了详细的标注如北大的语法信息词典以词类为划分标准讲汉语的常用词进行了划分并对词性、搭配前接成分和后接成分进行了详细的标注Hownet语义词典从义项的角度对词的义元进行了分解和注释。另外就是语义词库这类语义词侧重点不在词语的内部语法结构而在词语的整体语义上。这类词库常见的词库有哈工大发布的同义词词林扩展版这个词库将同义词按照语义的相近程度进行了不同层次的聚类可以作为同义词扩展提供帮助另一个是情感分析任务中常用的情感词典在上面有论述。领域语义词库可以在自然语言处理的任务中作为语法层面的特征提供帮助。 6、领域事件词库 领域事件词库其特征在于“事件”二字“事件”与常见的名词性实体不同常常更偏向于动作性上如“打架”、“斗殴”、“火山爆发”等是对特定领域业务中的动作进行收纳和聚合。不同的领域有着自身不同的事件类型事件类型可以通过具体的事件词列表进行表示如金融领域中的“并购重组”、“上市”、“退市”、“资金冻结”政治领域中的“总统大选”、“总统下台”、“支持率下降”法律领域的“逮捕归案”、“越狱出逃”等事件等这类事件词配合着事件之间的横向关联关系以及纵向上下位/组成关系可以组成适用于某个特定领域的事件网络并应用到与事件相关的各项业务当中。此外事件词的挖掘和识别是一个难点包括事件的边界确定事件的范围确定等在应对措施上可以通过有监督的序列标注方法以及基于依存规则与模式的方式加以提取也可以通过业务人员针对业务将各个业务环节中的操作动作、用户日志行为进行抽象化和序列化如典型的客服领域可以将客服的各项动作逻辑都形式化成一个事件设定触发条件以及事件之间的属性将整张领域事件网络图搭建起来。 三、可用的领域词资源 冷启动问题是开展领域文本业务首要面临的问题在这种没有数据沉淀以及可用数据人员的情况下开源的可供免费使用的领域词库成为了首选。输入法、垂直网站、开源文件库这三类资源库常可作为我们的领域词资源使用。 1、输入法词库 输入法是目前与我们生成文本内容信息作为主要的入口而在这个生产过程当中我们积累了大量的词库主要体现在用户个人词库以及输入法开发商研制词库两个方面。目前可供我们使用的输入法有很多包括搜狗输入法QQ拼音输入法百度输入法等这些输入法在官网都有相应的公开词库供用户下载。不过由于输入法词典是经过加密处理形成的一种非文本文件往往需要借助脚本或者开源工具进行转换。如对于搜狗输入法而言在主页中提供了包括农业、法律、生活、城市等十几个大类的词库包括数千个.scel格式的词典文件而无法直接以文本格式提取可以借助奥创词库加以转换。输入法公开词典提供了大量的领域词库但由于该词库大多是用户创建或上传的因此在转换完成之后还需要加以人工判定、筛选和过滤。 2、垂直网站 垂直网站为某个特定领域业务词汇的梳理提供了很好的数据来源的垂直定位由于垂直网站的目标定位网站内容较为单一和干净这对于某个特定领域的词汇收集带来很大的操作空间。例如ZOL中关村在线提供手机最新价格及经销商报价,包括手机大全,手机参数,手机评测,手机图片,手机论坛等详细内容,购买手机提供全面参考可以提供针对手机的词汇收集又如针对金融领域而言可以从东方财富网、同花顺网、和讯网等垂直网站的目录标签和导航页中解析出与上市公司、期货、宏观指标等特定词汇又如针对抽象类层级性词语的收集时可以在百科分类体系以及义项上获取开放域的上下位抽象概念在京东、淘宝的页面上获取商品类别的抽象层级性词汇在原材料供应网站的页面上获取原材料的上下位抽象层级词汇。用好垂直网站页面上的内容能够最大程度上的解决特定业务开展的冷启动问题。 3、开源文库 与输入法开源词库以及垂直网站不同开源文库以直接可读、全民共同编辑的形式为业务开展的冷启动问题和词汇扩展问题提供了一个方案。典型的开源文库包括百度文库、新浪爱问知识平台提供了各种形式的领域词库信息其特征主要体现在收费和格式上对于一些高质量的词库往往需要付费才能够使用此外TXT、XLS、DOC、DOCX、PDF等格式各异也给后期的处理和整理带来困难这一点在实际的使用过程中需要加以注意。 四、常用的领域词构建方法有哪些 领域词库有着不同的收集来源和类型划分针对不同类型的领域词库需要结合实际的业务情况合理的选用不同的方式来完成冷启动词典构建或者启动中的词语扩充工作。以下介绍了基于公开词库资源的整理和转换、基于种子词语及频繁模式的词汇扩展、基于种子词语及分布式表示的词汇扩展三种构建方法。 1、基于公开词库资源的整理与转换 输入法、垂直网站、开源文件库这三类资源库常可作为我们的领域词资源构建中的语义资源根据业务需求可以从中择一或者采用三者并行的方式来进行收集。针对输入法词库中不可直接读取的.scel格式的词典文件可以借助奥创词库加以转换并根据实际的业务需求将纯文本形式转换成所需格式。针对垂直网站页面中的领域词汇信息则可以借助定点爬虫以及xpath网页文本解析的方式加以转换和存储针对从百度文库等公开文库平台上下载的词库资源可以通过手工或者脚本转换的方式进行整理。 2、基于种子词语及频繁模式的词汇扩展 基于种子词语及频繁模式的词汇扩展是常用的一种基于规则的词汇扩展方法通过输入的种子特征词库通过计算种子特征词库所在上下文的特征并进行频繁模式挖掘如BootsTrapping自举的方法完成种子词与相关词的扩展。例如针对领域情感词的扩充任务来说可以通过SO-PMI算法来计算种子情感词与情感候选词之间的点间互信息其思想为选用一组褒义词Pwords跟一组贬义词Nwords作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值就可以根据该差值判断词语word1的情感倾向。当SO-PMIword1 0时,为正面倾向即褒义词;当SO-PMIword1 0时,为中性倾向即中性词;当SO-PMIword1 0时,为负面倾向即贬义词。通过这种扩展方法可以挖掘出不同领域的情感词。 又如在扩展规则上可以使用当前可用的语义词库如近义词词库、反义词词库、抽象类词库中词语词之间的关联关系完成相应扩充。 3、基于种子词语及分布式表示的词汇扩展 与基于频繁集的词汇扩展方式不同分布式表示的词汇扩展从词语之间的空间距离关系角度出发提供了入口。2013年Google开源了一款用于词向量计算的工具—word2vec引起了工业界和学术界的关注。首先word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练其次该工具得到的训练结果—词向量word embedding可以很好地度量词与词之间的相似性。词语类比是词语扩展中的一个例子给定 king - man woman queen, 当将该例子换成中文映射到训练好的wordvec中文词向量中可以实现“国王 - 男人 女人 王后”该结果的输出。基于wordvec找词语相似也是一个应用给定种子词“自然语言处理”通过词语之间相似度的计算可以得出“自然语言处理、自然语言理解、计算机视觉、深度学习、机器学习、图像识别、语义理解、自然语言识别、知识图谱自然语言、自然语音处理”等一系列的词。当然wordvec只是进行词语分布式表示方法的一种可以通过其他方式完成词向量的表示。 五、结语 不同的领域词库能够支持不同的应用领域词库可以细分为领域特征词库、领域停用词库、领域情感词库、领域抽象词库、领域语义词库、领域事件词库等冷启动问题是开展领域文本业务首要面临的问题在在这种没有数据沉淀以及可用数据人员的情况下开源的可供免费使用的领域词库成为了首选。输入法、垂直网站、开源文件库这三类资源库常可作为我们的领域词资源使用。领域词库有着不同的收集来源和类型划分针对不同类型的领域词库需要结合实际的业务情况合理的选用不同的方式来完成冷启动词典构建或者启动中的词语扩充工作。领域词汇挖掘在自然语言处理中扮演着举足轻重的作用领域词汇构建与应用技术是数地工场平台建设的一个方向我们后期将上线相关的领域词汇构建模块。 数地工场是由中科院软件所智慧金融团队(数据地平线)以近年来在金融领域的技术积累为基础基于并行计算系统、分布式爬虫技术、语义知识库构建技术、语义分析技术一站式满足用户网页信息采集、多源异构信息抽取、语义计算、舆情分析、语言资源构建等中文自然语言处理需求的语义开放平台。 数地工场围绕数据、事件、逻辑三个方向提供数据提取面向多源异构数据的结构化提取与标准化事件提取领域事件识别、元素识别与建模管理逻辑推理事件关系识别、事件体系构建、事件逻辑推理等自然语言处理接口工具资源。 更多商业合作请咨询mktdatahorizon.cn。欢迎扫描下图二维码加入我们的种子用户QQ群成为我们的VIP客户VIP客户可优先免费体验新功能客服1v1人工服务意见反馈优先处理等众多福利我们也会在群里不定期的发放优惠和福利欢迎大家在QQ中搜索QQ号:742846873或微信扫描下方二维码加入
http://www.huolong8.cn/news/66369/

相关文章:

  • 设计师万能导航网站app开发公司哪家好
  • 滁州网站建设hi444中国建盏形象设计大赛获奖名单
  • 开发个微网站多少钱分类目录网站怎么做
  • 支付的网站建设费整么做账如何向google提交网站
  • 手机网站建设可行性分析营销网站建设报价
  • 青岛网站建设公司好找吗网络营销推广的公司
  • 箱包网站建设策划报告摄影师都在哪些网站发布作品
  • 农资销售网站建设方案做课件网站
  • 电商网站的内容设计网站下面版权代码
  • 杭州做商务网站在线设计免费签名
  • 网站规划的主要内容针对大学生推广引流
  • 在安庆哪里可以做公司网站wordpress 嵌套回复
  • 长治企业网站建设价格wordpress+免费博客平台
  • 一般做外贸上什么网站好wordpress 添加到主屏
  • 怎么看 网站开发语言网站做不好一直不交付怎么办
  • 软件销售网站模板wordpress多媒体不显示
  • 扬州广陵区城乡建设局网站文章类网站源码
  • 漯河网站建设价格大连金州区房价
  • wordpress禁止升级西安官网seo价格
  • 网站结构分析昆明公司网站优化
  • 网站推广软件免费下载安装中国建设银行官网站企业年金
  • 建设银行官方个人网站快速学会做网站
  • 网站设计模板素材教育培训机构招生方案
  • 网站制作一个人可以做吗杭州市建设职业中心网站
  • 中国建设银行网站首页u盾登入工商注册网上核名
  • 多语言网站开发设计深圳地址大全
  • 百度蜘蛛抓取网站网站建设模板软件
  • 福建设计招聘网站不关站备案wordpress 2019
  • 私做网站名电子章wordpress百度流量统计
  • 超市微信小程序怎么做济南seo优化外包