当前位置: 首页 > news >正文

旅游网站 分析包头网络推广

旅游网站 分析,包头网络推广,网站后台的数据库怎么做,商城app开发价格表本文为第十六届自然语言处理青年学者研讨会 YSSNLP2019 报告《词法、句法分析研究进展综述》的简要文字整理#xff0c;本报告主要回顾词法、句法领域的最新研究进展。 关于报告人#xff1a;邱锡鹏#xff0c;复旦大学计算机科学技术学院副教授#xff0c;博士生导师。于复…本文为第十六届自然语言处理青年学者研讨会 YSSNLP2019 报告《词法、句法分析研究进展综述》的简要文字整理本报告主要回顾词法、句法领域的最新研究进展。 关于报告人邱锡鹏复旦大学计算机科学技术学院副教授博士生导师。于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究在 ACL、EMNLP、IJCAI 等计算机学会 A/B 类期刊、会议上发表 50 余篇学术论文引用 1600 余次。开源中文自然语言处理工具 FudanNLP 作者。2015 年入选首届中国科协人才托举工程2017 年 ACL 杰出论文奖2018 年获中国中文信息学会“钱伟长中文信息处理科学技术奖—汉王青年创新奖”。大家好我是邱锡鹏。今天非常荣幸给大家简要分享一下 NLP 中词法和句法分析领域的最新研究进展。首先我们来看一下词法和句法分析中的任务定义。我们一般认为词是语言中的最小语义单位所以在进行后续的很多 NLP 任务的时候需要先进行中文分词标注它的词性并分析句子的句法结构。像这里给的一个句子“上海计划发展金融业”首先需要将其进行分词然后进行词性标注和句法分析。这里我们的句法分析主要以依存句法分析为主进行介绍建立词与词之间的依赖关系。因此我们这里主要涉及三个任务中文分词词性标注和依存句法分析。目前用来解决这三个任务的基本方法可以分为序列标注方法基于转移的方法和基于图的方法三种。为了解决错误传播问题一般来说我们可以将这三个任务进行联合建模比如中文分词和词性标注的联合模型、词性标注和句法分析的联合模型、以及三个任务的全联合模型。这三个任务的最新研究进展和 SOTA 模型都可以从 NLP-Progress 这个网站进行查询。中文分词首先我们来看一下中文分词。 目前中文分词最好的模型是来自 EMNLP 2018 的一篇论文采用了基于堆叠双向长短期记忆网络的序列标注模型。该方法虽然在模型上并没有太多的创新但是其采用了预训练 bigram embedding 和变分 droupout 方法以及堆叠双向长短期记忆网络的微创新训练了一个相对较深的网络在解码时直接使用一个 softmax 分类器而不用 CRF。在多个数据集上达到了最好的效果。基于序列标注的方法是给字进行打标签很难利用到词级别的信息。为了引入词级别的信息可以采用以下三种方法基于转移的方法、Semi-CRF 和 DAG-LSTM/Lattice-LSTM。下面我分别简要介绍一下这三种方法。基于转移的方法是通过转移动作序列来进行分词即从左往右判断一个每两个相邻的字是分还是不分。这是一种贪婪的方法。在中间某一步时我们已经有之前分好词的信息所以可以利用词级别的信息来进行建模。第二种利用词级别信息的方法是利用 Semi-CRF 模型直接建模不同词之间的依赖关系。一般来讲可以先统一通过一个双向的循环神经网络来提取字别的信息然后使用一个融合方法来生成词级别的信息最后输入 Semi-CRF 层来进行分词。Semi-CRF 的缺点是候选词有一个最大长度限制我们提出了一种改进方法目前正在投稿中。第三种利用词级别信息的方法是是改进 LSTM 模型将链式结构扩展到 DAG 结构。我们可以用一个事先准备好的词典对句子进行预分割把所有的分割可能性都组合出来。这样我们模型的输入是有多个字和词构成的混合序列构成一个 DAG 结构。针对这种结构我们提出一种 DAG-LSTM 来进行序列标注。在中文分词中有一个问题是很多不同的分词标准。之前的方法都是在单个标准上进行训练模型。我们知道不同的分词标准之间有很多共通的特性。如这个表中所示三个不同标准存在部分重叠因此我们可以同时利用多个不同标准的数据进行联合训练通过多任务学习来辅助提高每个单独标准的分词能力。这里介绍一个我们在多标准分词上面的最新工作所有不同的标准都共享一个模型由于 Transformer 的强大能力我们用一个共享的 Transformer 来进行编码解码用一个共享的 MLP 或 CRF。然后增加一个额外的 Criterion ID用来指示模型输出哪个标准的结果。目前这个模型在所有的分词任务上都达到了最好的效果。词性标注词性标注一般来讲比较简单所以很少有单独工作来专门的词性标注任务。一般都是词性标注和其他任务相结合。首先我们来看一下联合的中文分词和词性标注任务。第一种方法是基于字的序列标注方法使用“BMES”和词性的交叉标签来给每个字打标签。比如“B-NN”、“S-NR”等。相比于中文分词分词和词性的联合任务需要更多的特征因此我们可以用更复杂的网络来进行抽取特征。第二种方法是基于转移的方法首先利用一个 BiLSTM 编码器来提取上下文特征在解码时每一步都预测一个动作。动作的候选集合为是否分词以及词性。依存句法分析接下来介绍下句法分析的最新进展这里主要以依存句法分析为主。在深度学习之前依存句法分析就分为基于转移的方法和基于图的方法。近几年分别出现了针对这两种不同方法的神经网络模型。首先来看下基于转移的方法通过 shift-reduce 两个基本的动作来将序列转换为树结构。首先用一个 buffer 来存储所有未处理的输入句子并用一个栈来存储当前的分析状态。动作可以分为1shift即将 buffer 中的一个词移到栈中2left_arc(x)即栈顶两个词 a,b 为 a-b 的依赖关系关系种类为 x3right_arc(x)即栈顶两个词 a,b 为 a-b 的依赖关系关系种类为 x。后两种动作为 reduce 动作。目前基于转移的方法的最好模型是 Stack LSTM通过三个 LSTM 来分别建模栈状态、待输入序列和动作序列。 其中因为栈需要入栈和出栈因此作者提出了一个 Stack LSTM 来建模栈状态。虽然基于 Stack LSTM 取得了非常好的效果但是在目前的依存句法分析中最流行的方法是基于图的方法经典的方法是 Biaffine 模型。直接用神经网络来预测每两个词之间存在依存关系的概率这样我们就得到一个全连接图图上每个边代表了节点 a 指向节点 b 的概率。然后使用MST等方法来来将图转换为一棵树。Biaffine 模型其实和我们目前全连接自注意力模型非常类似。Biaffine 模型十分简单并且容易理解并且在很多数据集上都取得了目前最好的结果。除模型外目前依存句法分析主要关注于多语言的依存通用依存分析。目前一个数据集是 universal dependenies其中有很多问题值得研究比如多任务学习、迁移学习、通用语言表示等。词性标注 句法分析很自然地我们可以将词性标注和句法分析作为联合任务来进行建模。联合的词性标注和句法分析方法有很多可以是基于转移的方法也可以是基于图的方法。这里介绍一种比较简单的方法首先利用 LSTM 来预测词性然后用词性信息和词信息一起用另外一个 LSTM 进行建模并用 Biaffine 模型进行句法分析。中文分词 句法分析在中文方面句法分析是基于词级别的所以在做句法分析之前要先进行分词。那么我们是不是可以将中文分词和句法分析也作为一个联合任务来同时进行呢我们提出了一个基于图方法的统一模型来同时解决中文分词和句法分析问题。其实方法很简单只需要将词内部的字之间加上一个特殊的依赖关系“app”然后将词级别的依存关系转换为字级别的依存关系。并且用 biaffine 模型来进行同时预测。这就是具体的模型结构和 biaffine 模型类似。fastNLP最后上面的模型都将在 fastNLP 中进行实现这里简单介绍下我们最近的一个工作基于深度学习的自然语言处理平台 FastNLP。我们希望做到具有 Spacy 的易用性AllenNLP 模块化以及 AutoML 自动模型选择。FastNLP 是一个模块化可扩展的 NLP 框架提供大量的预训练模型可以使大家在五分钟内实现 SOTA 模型。另外 NLP 中大量的时间都花在数据的预处理和数据转换上面FastNLP 提供了一种非常简单高效的数据预处理方法。面向我们科研工作者FastNLP 也提供了非常方便的参数记录以及实验过程可视化工具。最后希望有兴趣的老师、同学一起来参与开发谢谢。#投 稿 通 道#如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢 答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学习心得或技术干货。我们的目的只有一个让知识真正流动起来。 来稿标准• 稿件确系个人原创作品来稿需注明作者个人信息姓名学校/工作单位学历/职位研究方向• 如果文章并非首发请在投稿时提醒并附上所有已发布链接• PaperWeekly 默认每篇文章都是首发均会添加“原创”标志 投稿方式• 方法一在PaperWeekly知乎专栏页面点击“投稿”即可递交文章• 方法二发送邮件至hrpaperweekly.site 所有文章配图请单独在附件中发送• 请留下即时联系方式微信或手机以便我们在编辑发布时和作者沟通关于PaperWeeklyPaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域欢迎在公众号后台点击「交流群」小助手将把你带入 PaperWeekly 的交流群里。加入社区http://paperweek.ly微信公众号PaperWeekly新浪微博PaperWeekly
http://www.yutouwan.com/news/385236/

相关文章:

  • 在商用网站上用明星的名字做昵称网页设计美化教程
  • 营销型企业网站名词解释分销网站建站
  • 免费的网页入口沧州网站建设 3tseo
  • 长沙手机网站开发旅游网站开发哪家好
  • 公司建网站哪家开发公司经营范围
  • asp网站建设 aws百度推广去哪里学技术
  • 肉菜配送网站建设做网站哪家公司便宜
  • 创建个人主页网站射洪网站建设工作室
  • 晋中网站开发小程序搭建赚钱吗
  • 做招聘网站的要求外贸皮包网站模板
  • 做网站都有那些步骤有口碑的顺德网站建设
  • 湖南做电商网站需要什么条件做网站哪里比较好
  • d网站建设的目的凡科网站是什么做的
  • 高端网站建设哪些好网站运营这么做
  • php网站开发好学吗网站建设的教学视频
  • 漳州建设局网站首页网页设计作品到哪个网站
  • 哪里有建设好的网站如何建立一个视频网站
  • 网站建设 签约信息电子商务网站建设代码
  • 河北唐山 网站建设空投注册送币网站怎么做
  • 视频背景网站富阳做网站
  • 别人做的网站不能用了电销
  • 廊坊手机网站关键词优化排名软件怎么样
  • 网站开发需要用什么全球包装设计网
  • 来雁新城建设投资公司官方网站灰色关键词排名收录
  • 邵阳整站优化海澜之家的网站建设目标
  • 双语言网站源码湖州房产网站建设
  • 成都网站建设众成联邦wordpress调样式
  • 内乡网站制作wordpress 安全检测
  • 如何搭建自己的博客seo营销推广多少钱
  • 有什么免费开发网站建设软件企业对网站建设的发展