当前位置: 首页 > news >正文

建筑网站大全免费河北建设厅网站登陆怎么找附件

建筑网站大全免费,河北建设厅网站登陆怎么找附件,盗版系统网站怎么建立,a站怎么进一只小狐狸带你解锁 炼丹术NLP 秘籍Ernie 1.0ERNIE: Enhanced Representation through Knowledge Integration 是百度在2019年4月的时候#xff0c;基于BERT模型#xff0c;做的进一步的优化#xff0c;在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是… 一只小狐狸带你解锁 炼丹术NLP 秘籍Ernie 1.0ERNIE: Enhanced Representation through Knowledge Integration 是百度在2019年4月的时候基于BERT模型做的进一步的优化在中文的NLP任务上得到了state-of-the-art的结果。它主要的改进是在mask的机制上做了改进它的mask不是基本的word piece的mask而是在pretrainning阶段增加了外部的知识由三种level的mask组成分别是basic-level maskingword piece phrase level maskingWWM style entity level masking。在这个基础上借助百度在中文的社区的强大能力中文的ernie还是用了各种异质(Heterogeneous)的数据集。此外为了适应多轮的贴吧数据所有ERNIE引入了DLM (Dialogue Language Model) task。百度的论文看着写得不错也很简单而且改进的思路是后来各种改进模型的基础。例如说Masking方式的改进让BERT出现了WWM的版本对应的中文版本Pre-Training with Whole Word Masking for Chinese BERT以及 facebook的SpanBERT等都是主要基于masking方式的改进。但是不足的是因为baidu ernie1.0只是针对中文的优化导致比较少收到国外学者的关注另外百度使用的是自家的paddle paddle机器学习框架与业界主流tensorflow或者pytorch不同导致受关注点比较少。Knowlege Masking「Inituition」: 模型在预测未知词的时候没有考虑到外部知识。但是如果我们在mask的时候加入了外部的知识模型可以获得更可靠的语言表示。例如哈利波特是J.K.罗琳写的小说。单独预测 哈[MASK]波特 或者 J.K.[MASK]琳 对于模型都很简单但是模型不能学到哈利波特和J.K. 罗琳的关系。如果把哈利波特直接MASK掉的话那模型可以根据作者就预测到小说这个实体实现了知识的学习。需要注意的是这些知识的学习是在训练中隐性地学习而不是直接将外部知识的embedding加入到模型结构中ERNIE-TsingHua的做法模型在训练中学习到了更长的语义联系例如说实体类别实体关系等这些都使得模型可以学习到更好的语言表达。首先我们先看看模型的MASK的策略和BERT的区别。ERNIE的mask的策略是通过三个阶段学习的在第一个阶段采用的是BERT的模式用的是basic-level masking然后在加入词组的mask(phrase-level masking), 然后在加入实体级别entity-level的mask。如下图basic level masking在预训练中第一阶段是先采用基本层级的masking就是随机mask掉中文中的一个字。phrase level masking第二阶段是采用词组级别的masking。我们mask掉句子中一部分词组然后让模型预测这些词组在这个阶段词组的信息就被encoding到word embedding中了。entity level masking在第三阶段 命名实体例如说 人名机构名商品名等在这个阶段被mask掉模型在训练完成后也就学习到了这些实体的信息。不同mask的效果Heterogeneous Corpus Pre-training训练集包括了Chinese WikepediaBaidu BaikeBaidu newsBaidu Tieba 注意模型进行了繁简体的转化以及是uncasedDLM (Dialogue Language Model) task对话的数据对语义表示很重要因为对于相同回答的提问一般都是具有类似语义的ERNIE修改了BERT的输入形式使之能够使用多轮对话的形式采用的是三个句子的组合[CLS]S1[SEP]S2[SEP]S3[SEP] 的格式。这种组合可以表示多轮对话例如QRQQRRQQR。Q提问R回答。为了表示dialog的属性句子添加了dialog embedding组合这个和segment embedding很类似。DLM还增加了任务来判断这个多轮对话是真的还是假的NSPMLM在贴吧中多轮对话数据外都采用的是普通的NSPMLM预训练任务。NSP任务还是有的但是论文中没写但是git repo中写了用了。最终模型效果对比bertErnie 2.0ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 百度ERNIE2.0 的出现直接刷榜了GLUE Benchmark。「Inituition」就像是我们学习一个新语言的时候我们需要很多之前的知识在这些知识的基础上我们可以获取对其他的任务的学习有迁移学习的效果。我们的语言模型如果增加多个任务的话是不是可以获得更好的效果事实上经发现ernie1.0 了DLM任务以及其他的模型例如Albert 加了sentence order predictionSOP任务之后或者SpanBERT: Improving Pre-training by Representing and Predicting Spans在加上了SBO目标之后 模型效果得到了进一步的优化同时MT-DNN也证明了在预训练的阶段中加入直接使用多个GLUE下游任务有监督进行多任务学习可以得到state-of-the-art的效果。于是科学家们就在想那一直加task岂不是更强百度不满足于堆叠任务而是提出了一个持续学习的框架利用这个框架模型可以持续添加任务但又不降低之前任务的精度从而能够更好更有效地获得词法lexical句法syntactic语义semantic上的表达。百度的框架提出主要是在ERNIE1.0的基础上利用了大量的数据以及先验知识然后提出了多个任务用来做预训练最后根据特定任务finetune。框架的提出是针对life-long learning的即终生学习因为我们的任务叠加不是一次性进行的Multi-task learning而是持续学习(Continual Pre-training)所以必须避免模型在学了新的任务之后忘记旧的任务即在旧的任务上loss变高相反的模型的表现应该是因为学习了的之前的知识所以能够更好更快的学习到现有的任务。为了实现这个目的百度提出了一个包含pretraining 和fine-tuning的持续学习框架。Continual Pre-training任务的构建百度把语言模型的任务归类为三大类模型可以持续学习新的任务。字层级的任务(word-aware pretraining task)句结构层级的任务(structure-aware pretraining task)语义层级的任务(semantic-aware pretraining task)持续的多任务学习对于持续的多任务学习主要需要攻克两个难点模型如何能够有效地训练为了解决上一个的问题有人propose新的方案我们每次有新的任务进来我们都从头开始训练一个新的模型不就好了。虽然这种方案可以解决之前任务被忘记的问题但是这也带来了效率的问题我们每次都要从头新训练一个模型这样子导致效率很低。如何保证模型不忘记之前的任务常规的持续学习框架采用的是一个任务接一个任务的训练这样子导致的后果就是模型在最新的任务上得到了好的效果但是在之前的任务上获得很惨的效果(knowledge retention)。百度提出的方案sequential multi-task learning聪明的你肯定就会想到为什么我们要从头开始训练一个模型我们复用之前学到的模型的参数作为初始化然后在训练不就行了是的但是这样子似乎训练的效率还是不高因为我们还是要每一轮中都要同时训练多个任务百度的解决方案是框架自动在训练的过程中为每个任务安排训练N轮。部分任务的语义信息建模适合递进式比如ernie1.0 突破完形填空ernie2.0 突破选择题句子排序题等不断递进更新就好像是前面的任务都是打基础有点boosting的意味顺序学习容易导致遗忘模式这个可以复习一下李宏毅的视频所以只适合学习任务之间比较紧密的任务就好像你今天学了JAVA明天学了Spring框架但是如果后天让你学习有机化学就前后不能够联系起来之前的知识就忘得快适合递进式的语音建模任务初始化 optimized initialization每次有新任务过来持续学习的框架使用的之前学习到的模型参数作为初始化然后将新的任务和旧的任务一起训练。训练任务安排 task allocating对于多个任务框架将自动的为每个任务在模型训练的不同阶段安排N个训练轮次这样保证了有效率地学习到多任务。如何高效的训练每个task 都分配有N个训练iteration。One left problem is how to make it trained more efficiently. We solve this problem by allocating each task N training iterations. Our framework needs to automatically assign these N iterations for each task to different stages of training. In this way, we can guarantee the efficiency of our method without forgetting the previously trained knowledgeContinual Fine-tuning在模型预训练完成之后可以根据特定任务进行finetuning这个和BERT一样。ERNIE2.0 Model为了验证框架的有效性ERNIE2.0 用了多种任务训练了新的ERNIE2.0模型然后成功刷榜NLU任务的benchmarkGLUE截止2020.01.04。百度开源了ERNIE2.0英文版但是截至目前为止还没有公开中文版的模型。model structure模型的结构和BERT一致但是在预训练的阶段除了正常的position embeddingsegment embddingtoken embedding还增加了task embedding。用来区别训练的任务, 对于N个任务task的id就是从0N-1每个id都会被映射到不同的embedding上。模型的输入就是但是对于fine-tuning阶段ernie 使用任意值作为初始化都可以。Pre-training TasksERNIE模型堆叠了大量的预训练目标。就好像我们学习英语的时候我们的卷子上面有多种不同的题型。词法层级的任务(word-aware pretraining task)获取词法知识。knowledge masking(1.0)ERNIE1.0的任务大小写预测Capitalization Prediction Task模型预测一个字不是不是大小写这个对特定的任务例如NER比较有用。但是对于中文的话这个任务比较没有用处可能可以改为预测某个词是不是缩写词频关系Token-Document Relation Prediction Task预测一个词是不是会多次出现在文章中或者说这个词是不是关键词。语法层级的任务(structure-aware pretraining task) 获取句法的知识句子排序(Sentence Reordering Task)把一篇文章随机分为i 1到m份对于每种分法都有 种组合所以总共有 种组合让模型去预测这篇文章是第几种就是一个多分类的问题。这个问题就能够让模型学到句子之间的顺序关系。就有点类似于Albert的SOP任务的升级版。句子距离预测(Sentence Distance Task)一个三分类的问题0: 代表两个句子相邻1: 代表两个句子在同个文章但不相邻2: 代表两个句子在不同的文章中语义层级的任务(semantic-aware pretraining task) 获取语义关系的知识0: 代表了提问和标题强相关出现在搜索的界面且用户点击了1: 代表了提问和标题弱相关出现在搜索的界面但用户没点击2: 代表了提问和标题不相关未出现在搜索的界面篇章句间关系任务(Discourse Relation Task)判断句子的语义关系例如logical relationship( is a, has a, contract etc.)信息检索关系任务(IR Relevance Task)一个三分类的问题预测query和网页标题的关系0: 代表了提问和标题强相关出现在搜索的界面且用户点击了1: 代表了提问和标题弱相关出现在搜索的界面但用户没点击2: 代表了提问和标题不相关未出现在搜索的界面network outputToken level loss给每个token一个labelSentence level loss例如句子重排任务判断[CLS]的输出是那一类别应用场景场景性能不敏感的场景直接使用度小满的风控召回排序提升25%度小满的风控识别上训练完的ernie上直接进行微调直接预测有没有风险对应的结果传统的缺点需要海量的数据而这些数据也很难抓取到的抓取这些特征之后呢还要进行复杂的文本特征提取比如说挖掘短信中银行的催收信息对数据要求的量很高对数据人工的特征的挖掘也很高。这两项呢造成了大量的成本如今只需ernie微调一下当时直接在召回的排序上得到25%的优化。这种场景的特点是什么对于用户的实时性的需求不是很强不需要用户输入一个字段就返回结果。只要一天把所有数据得到跑完得到结果就可以了统一的分析就可以了适合少数据的分析场景。场景性能敏感场景优化模型蒸馏例如搜索问答Query识别和QP匹配另外的一个场景需要非常高的性能优势的采用的解决方案就是模型蒸馏是搜索问答query识别和qp匹配输入一个问题得到答案本质是文本匹配实际是输入问题把数据库中大量的候选答案进行匹配计算得分把得分最高的返回。但是百度每天很多用户很快的响应速度数据量大要求响应速度还快这时候要求不仅模型特别准而且还要特别快怎么解决就是模型蒸馏phrase 1: 判断问题是否可能有答案文本分类过滤完是可能有答案的再与数据库中进行匹配因为大部分输入框的不一定是个问题这样过滤掉一部分排除掉一部分后在做匹配就能得到很大的提升提升还是不够第一部分其实是文本分类通过小规模的标注特征数据进行微调得到一个好的模型同时日志上是有很多没有标注的数据用ernie对这些数据进行很好的标注用一个更好的模型去标注数据用这些标注数据训练相对简单的模型就实现了蒸馏ernie处理速度慢但是可以用题海战术的方式训练简单的模型。具体步骤一个很优秀的老师学一点东西就能够带学生了但是学生模型不够聪明海量的题海战术就可以学很好。Fine-tune使用少量的人工标注的数据用ERNIE训练label propagation使用Ernie标注海量的挖掘数据得到带标注的训练数据train使用这些数据下去训练一个简单的模型或者采用模型蒸馏的方式参考TinyBERT。phrase 2: 有答案与答案库进行各种各样的匹配文本匹配同理下面问题匹配也是右边也是query和答案然后经过embedding加权求和全连接最后计算他们之间的预选相似度可以是余弦相似度。召回提升7%场景百度视频离线推荐推荐场景是可以提前计算好保存好的可变的比较少视频本身就是存好的变化量不会很大更新也不会特别频繁离线把相似度计算好保存起来就可以两两计算之间的相似度计算量是非常大的那么怎么减少计算量呢使用了一个技术叫离线向量化离线把视频和视频的相似度算好然后存入数据库 N个视频俩俩计算 100万采用了离线向量化双塔模型用户看的视频经过一个ERNIE 得到一个向量候选集通过另外一个ERNIE共享权重得到一个向量计算相似度O(N)计算之后再俩俩计算cos代码使用clone https://github.com/PaddlePaddle/ERNIEpip install -r requirements.txtcd modelswget --no-check-certificate https://baidu-nlp.bj.bcebos.com/ERNIE_stable-1.0.1.tar.gzcd ..download traindatawget --no-check-certificate https://ernie.bj.bcebos.com/task_data_zh.tgzrun.shhomeYOUR_ERNIE_PATHexport TASK_DATA_PATH$home/glue_data_processed/export MODEL_PATH$home/model/export TASK_DATA_PATHYOUR_TASK_DATA_PATHexport MODEL_PATHYOUR_MODEL_PATHsh script/zh_task/ernie_base/run_ChnSentiCorp.sh 反思没有 Ablation Studies不能确定堆叠task能不能提升有可能像是NSP这样的任务其实是起反作用的还有就是持续学习的方法是不是有更优的解毕竟这样子当任务达到很多的时候内存数据需要很大Elastic Weight Consolidation方式可能喜欢LayerNorm是Transformer的最优解吗卖萌屋2020 Q1季度大会如何优雅地编码文本中的位置信息三种positioanl encoding方法简述深入解析GBDT二分类算法附代码实现在大厂和小厂做算法有什么不同夕小瑶的卖萌屋_关注星标小夕带你解锁AI秘籍订阅号主页下方「撩一下」有惊喜哦
http://www.huolong8.cn/news/299576/

相关文章:

  • 垂直汽车网站做电商的优势做各国民宿租赁的网站
  • 义乌网站建设现状免费的黄台app下载
  • 建公司网站的公司没有网站做淘宝客
  • 腾讯云快速建站上海网站建设 迈若
  • 国际物流网站制作模板南宁市网站开发建设
  • 2017网站开发语言排名pc端网站怎么做自适应手机端
  • 韶山网站建设做队徽的网站
  • 网站怎么做成小程序网站不兼容360浏览器
  • 排名好的郑州网站建设做app怎么做
  • 怎样免费推广网站菏泽正耀网站建设公司怎么样
  • 网站整合建设方案排版模板素材
  • 如何做网站不被坑企业国际网站建设
  • 牵牛建站紫搜做网站
  • 京东网站制作优点电子商务网站建设技巧
  • 企业网站建设的上市公司杭州网站外包公司
  • 网站运营方案书合肥专业做网站
  • 360网站seo手机优化软件四川省城乡住房和城乡建设厅网站首页
  • 加强廉政教育网站建设平面设计网站大全有哪些
  • 关于服装的网站规划与设计付费阅读小说网站开发建设源码
  • 宿迁网站建设哪家最好网站开发者工资
  • 做网站用虚拟主机怎么样滕州市 网站建设公司
  • 单页网站规划设计书郑州h5网站建设价格
  • 网站建设公司特色正规接单赚佣金的平台
  • 免费打开网站企业管理咨询服务合同
  • 建设股份公司网站通州富阳网站建设
  • 网站开发英语住房和建设厅网站
  • 重庆水务建设项目集团网站注册公司名称用什么名字好
  • linux wordpress建站教程上海 网站工作室
  • 设置网站人数政务网站建设需求
  • 建设银行的网站用户名是什么意思新网站建设平台