当前位置: 首页 > news >正文

苏州网站建设狮山路西安浐灞生态区规划建设局网站

苏州网站建设狮山路,西安浐灞生态区规划建设局网站,温州建校官网,信誉好的购物网站语言资源的类别、搜索与搭建策略 一、引言 语言资源#xff0c;本身是一个宽泛的概念#xff0c;即语言资源#xff0c;语言指的是资源的限定域#xff0c;资源资源#xff0c;是资料的来源或者汇总#xff0c;加在一起#xff0c;也就形成了这样一种界定#xff1a;任…语言资源的类别、搜索与搭建策略 一、引言 语言资源本身是一个宽泛的概念即语言资源语言指的是资源的限定域资源资源是资料的来源或者汇总加在一起也就形成了这样一种界定任何语言单位形成的集合都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分一方面语言资源是相关语言处理任务的支撑为语言处理任务提供先验知识进行辅助另一方面语言处理任务也为语言资源提出了需求并能够对语言资源的搭建、扩充起到技术性的支持作用。因此随着自然语言处理技术的不断发展自然语言处理需求在各个领域的不断扩张、应用相关语言资源的构建占据了越来越为重要的地位。作者硕士期间所在的研究机构为国家语言资源监测与研究平面媒体中心深受导师所传授的语言资源观熏陶并在实际的学习、工作过程中动手实践形成了自己的一些浅薄的语言资源认识现在写出来供大家一起讨论。这篇文章的名称为“语言资源搜索、搭建策略”主要介绍一些自己对语言资源的搜索搭建过程中的一些心得。 二、语言资源的分类 前言中说到任何语言单位的集合都可以称为语言资源比如我有一个个人的口头禅集合这个就可以称为一个语言资源库在你实际生活中进行言语活动时你其实就在使用这个语言资源库。再比如说一个班级中的学生名单其实也可以当作是一种语言资源这个语言资源在进行班级学生点名、考核的时候也大有帮助。当然此处所讨论的语言资源是从自然语言处理应用的角度上出发的。总的来说我把它归为以下两种类型 1、领域语料库 领域语料库是从语料的这个角度来讲的这里的语料界定成文本级别以自然语句为基础级别形成的文本集合即可以是句子、段落、篇章等。领域语料库可以根据不同的划分规则而形成不同的语料类别 1根据所属领域可以进一步细化成不同领域的语料库。包括金融领域语料、医药领域语料、教育领域语料、文学领域语料等等。 2根据所属目的可以进一步细化为评测语料为自然语言处理技术pk而人工构造的一些评测语料如ACE,MUC等国际评测中所出现的如semeval2014,snli等工具语料指供自然语言处理技术提供资源支撑的语料 3根据语料加工程度的不同可进一步分为熟语料指在自然语言单位上添加人工的标签标注如经过分词、词性标注、命名实体识别、依存句法标注形成的语料生语料指直接收集而未经加工形成的语言资源集如常见的微博语料新闻语料等 4根据语料语种的不同可进一步分为单语语料和多语语料多语语料指的是平行语料常见于机器翻译任务中的双语对齐语料汉-阿平行语料库汉-英平行语料库等 5根据语料规模的不同可以进一步分为小型语料库中型语料库大型语料库。至于小型、中型、大型的界定可根据实际领域语料的规模而动态调整 2、领域词库 领域词库指以句级以下语言单位形成的语言资源库这个层级的语言单位可以是笔画、偏旁部首、字、词、短语等。同样的领域词库也可以进一步细分。 1领域特征词库。这里所说的领域特征词库指的是与领域强相关具有领域区别能力形成的词语集合如体育领域中常见的“篮球”、“足球”等词文学领域常见的“令狐冲”、“鲁迅”等词又如敏感词库等这些词常常可作为分类特征而存在。 2语法语义词库。语义词库的侧重点在与语言的语法层面和语义层面 a语法词库北大的语法信息词典北大的实体概念词典、Hownet语义词典这三类词典这几个语法词库在对词的语法功能上都做了不同的工作对词的内部结构信息进行了详细的标注如北大的语法信息词典以词类为划分标准讲汉语的常用词进行了划分并对词性、搭配前接成分和后接成分进行了详细的标注Hownet语义词典从义项的角度对词的义元进行了分解和注释。 b语义词库这类语义词点侧重点不在词语的内部语法结构而在词语的整体语义上。这类词库常见的词库有哈工大发布的同义词词林扩展版这个词库将同义词按照语义的相近程度进行了不同层次的聚类可以作为同义词扩展提供帮助。另一个是情感分析任务中常用的情感词典这类词典主要公开的词典包括大连理工大学信息检索实验室公开的情感本体词库、hownet、香港中文大学、台湾清华大学公开的情感词库具体包括情感词库、否定词库、强度词库等。另外工业界有boson公开的微博情感词库词的规模比较大但标注信息不是很精准。还有的则是中文的反义词库等这个可以参考我的github项目里面对这些词库也有一些涉及。 三、语言资源的搜索策略 从根本上来说语言资源的构建是受具体应用需求驱动的有了应用的需求才能造就璀璨夺目的语言资源文化。在上一节中说到目前网上开源的语言资源有很多大家根据自己的业务需求或者目的或多或少都能找到对应的资源。而单单这个“找”字其实有的时候也急坏了一批人。因此在这一小节中我来谈谈“语言资源的搜索策略”。 语言资源的搜索策略指针对自己应用需求而在网络开源信息当中寻求对口资源的一种方法论。根据自己的经验语言资源的搜索策略大致可以分成三步走策略 1确定自己要搜什么。不要一上来就去百度里面搜索关键词这是最忌讳的。每次我们拿到一个语言资源需求时应该具体想明白自己要搜的这个东西。想三个问题 搜的这个东西是什么 搜的这个东西样式是怎样的 搜的这个东西的目标数量有多少 2确定搜索的目标地。在想好自己要搜什么的时候接下来就想去哪儿搜的问题。其实解决去哪儿搜的问题可以遵循以下两个原则 一是专业词库的专业词典户优先。这个意思是专业的语言资源有很大概率都出现在专业的网站上例如我想找反义词的相关词库这是词这一维度的而且是一类语义词首先想到的应该是词典。这个对应的其实就可以去找相应的词典网站如字典网、在线反义词词典等。说到词典其实可以想到什么地方词典最多答案很明显那就是有个叫“输入法词库”的东西我们在打字的时候其实是一个个词往外蹦出来的因此现在的输入法有很多词库有的还提供上传用户个人词库的接口。我github中有一个关于搜狗词库下载及转换的一个项目可以对搜狗输入法词库中的.scel格式的词库进行下载和转码大家可以尝试一下。话说搜狗的词库的类别和数目真的听过。另外可以再从百度输入法等多个输入法进行扩展。此外如果在专业的词典户中不存在的时候那么则可以进一步义“你的词词典”这种检索方式在百度文库、百度网盘、新浪微盘中进行搜索。 二是特征语料的垂直网站优先。这个主要特指相关的领域特征词库或者类别语料。目前行业的发展催生了很多行业的模范网站这些网站对某个行业做的比较深入直接带来一个好处就是垂直语料的集大成。这个时候我们其实就可以在这些网站中下功夫做工作。当然这其实分成两种类型 a如果针对的是句子或以上级别的语料资源的需求时可直接就垂直网站中的对应的板块下进行采集即可里面有个需要注意的点就是要看充分利用网站中的各个信息如板块信息、标签页信息等这是网站采编人员根据自己的业务体系自动梳理出来的。 b如果是要做词语级别的那其实可以尝试从板块类别、标签类别、类目体系等方面入手这个解决部分的问题而如果需要进一步扩充的话则可以使用a b的方式通过收集领域语料再借助b中收集的词作为种子词使用词库扩充方法进行扩充。目前扩充的方式包括 一基于bootstrappingwordvector/同义词库的方式不断迭代扩充等。 二基于lda/tfidf/co-occurance/mi等特征词提取的方式不断迭代扩充。 这个步骤最终需要形成目标标地的一个名单可以以列表形式展现。 3全力搜索 在完成步骤2之后就按图索骥吧动用全部家当手动写爬虫等等。这一部分不再赘述。 四、语言资源的搭建策略 语言资源的搭建指的是语言资源的整个搭建过程。其实是要解决四个问题一个是语言资源的收集问题二是语言资源的融合标准化问题三是语言资源的动态更新问题四是语言资源的共享与联盟问题。下面就这四点展开阐述 1、语言资源收集的问题。上一节中说到的语言资源搜索策略中讲述了语言资源搜索过程中的三步走策略在这个步骤完成之后会得到一系列的词库。这些词库可能初期不会特别完善往往还需要人工使用启发式规则进行人工去噪的工作。 2语言资源的融合标准化问题。通过不同方式收集起来的语言资源往往会存在一个格式不对称的问题这有点像知识图谱中的知识融合问题。因此为了解决这个问题我们通常需要制定一个标准化的语言资源格式例如在构建情感词表的过程当中有的情感词表没有强度标记有的强度值范围不一样有的情感词表的标记不一这个时候往往需要标准化给定一个标准化的样式再将不同来源的情感词按照这个标记做相应的调整。我在实际的工作过程中常常把这种问题类别成知识图谱构建过程中的schema搭建问题信息抽取过程中的slot-definition问题。先把规范和标准搭好再去统一标准化。 3语言资源的动态更新问题。知识和信息的价值在很大程度上都在于它的一种实时性语言资源作为一种常识性知识库能够保证自身的一种与时俱进将能够最大限度地发挥自身的价值。而从实践的角度上来说语言资源的动态更新可以靠人工去维持去动态及时更新也可以建立一种动态监测和更新机制让机器自动地去更新。这类其实可以参考知识图谱更新的相关工作。 4语言资源的共享与联盟问题。语言资源是否共享其实是一个与业务敏感以及开源意识想结合的一种决策有的资源因为某种业务敏感或者开源意识不够open而无法共享当然还有其他因素成分在不过语言资源最好是需要共享的这样能够最大力度的发挥语言资源在各个领域的应用。语言资源的联盟问题更像是对开源语言资源的一种链接与互联。这类问题是对当前的资源零散、碎片化问题的一个思考前面也说到目前情感分析的词表有很多个语法和语义词库也有很多个但每个人在构建时的出发点不同构建者也分布在不同的高校或机构当中这些资源虽然在个数上会有增长但随着时间的推移这种零散化的现象将会越来越严重。 五、总结 自然语言处理是人工智能皇冠上的一颗明珠懂语言者得天下语言资源在自然语言处理中扮演着举足轻重的作用懂语言资源者分得天下。目前开放的网络环境对语言资源的大繁荣提供了很大的契机。语言资源构建是一门学问也是一种手段现在自然语言处理技术也对语言资源的构建提供了技术上的支持如何把握语言资源搜索策略搭建策略重点解决语言资源的动态更新、共享与联盟问题将是语言资源建设未来需要解决的问题。
http://www.yutouwan.com/news/464798/

相关文章:

  • 网站开发模板代码枣庄做网站
  • 滨海做网站哪家好北京网站优化体验
  • 无锡优化网站排名网店美工的工作内容
  • 金融网站源码代理app软件
  • 西安 网站托管建筑工程培训
  • 网站根目录文件名网页视频下载到本地
  • 顶升网架公司南京网站优化报价
  • 爱网站查询英文网站模板下载
  • 网上商城建站工作室青羊区建设网站
  • 专业做网站关键词排名下掉6个常用项目管理软件
  • 微信商城网站模板工厂怎么推广自己的产品
  • 做加工都在哪个网站推广百度站长工具怎么推广网站
  • 动漫网站开发九一人才网赣州找工作
  • 网站建设活动策划方案wordpress设置使用旧版编辑器
  • 网站为什么做静态上饶网站建设兼职
  • 大连建网站需要多少钱济南学网站建设哪里好
  • ipad做网站服务器贴吧网站建设
  • 中介网站设计培训网站官网
  • 做网站最好的网络公司网站建设及相关流程图
  • 合肥新站区有做网站的吗庆阳设计公司
  • 使用wordpress在ec2上建网站一流的常州网站优化
  • 网站移动端权重怎么做网站设计所遵循的原则
  • 东莞大岭山网站制作龙华属于深圳哪个区
  • 二手房中介网站建设网站后台有哪些模块
  • 简洁的企业网站源码凡客品牌
  • 动画网站模板软件技术专业可以从事什么工作
  • 长沙做网站竞网佛山seo培训
  • 网站备案咨询互联网营销师是干什么
  • 建设网站的技巧徐州网站外包
  • 站长工具源码上海市政网官网