公司网站建设及维护,效果图网站推荐大全,有专门下载地图做方案的网站吗,ue5培训机构哪家强感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份#xff0c;NLP大神Manning联合谷歌做的ELECTRA一经发布#xff0c;迅速火爆整个NLP圈#xff0c;其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10#xff0c;性能却依然能与BERT、RoBERTa等…感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份NLP大神Manning联合谷歌做的ELECTRA一经发布迅速火爆整个NLP圈其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10性能却依然能与BERT、RoBERTa等模型相媲美。在前不久谷歌终于开源了ELECTRA并发布了预训练模型这对于缺大算力的高校和企业简直是一大福音。然而其发布的预训练模型只是针对英语却非如BERT那样是多语言版本。对于其他语言例如中文的研究者来说则非常遗憾。针对这一问题今天哈工大讯飞联合实验室HFL基于ELECTRA开源代码发布了中文版的 ELECTRA 预训练模型。1、ELECTRAELECTRA预训练模型的作者是斯坦福SAIL实验室Manning组和谷歌大脑研究团队初次出现是在2019年北京智源大会上面。作为一种新的文本预训练模型ELECTRA 新颖的设计思路、更少的计算资源消耗和更少的参数迅速引起了大批关注者。特别是在去年 11 月 ICLR 2020 论文接收出炉后曾引起NLP圈内不小的轰动。论文链接https://openreview.net/forum?idr1xMH1BtvB论文中这张图能够说明一切问题图注右图是左图放大的结果。如上图所示ELECTRA模型能够在训练步长更少的前提下得到了比其他预训练模型更好的效果。同样在模型大小、数据和计算相同的情况下ELECTRA的性能明显优于基于MLM的方法如BERT和XLNet。所以ELECTRA 与现有的生成式的语言表示学习方法相比前者具有更高的计算效率和更少的参数ELECTRA-small的参数量仅为BERT-base的 1/10。ELECTRA能够取得如此优异结果基于其新颖的预训练框架其中包含两个部分Generator和Discriminator。Generator: 一个小的MLM在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。Discriminator: 判断输入句子中的每个词是否被替换即使用Replaced Token Detection (RTD)预训练任务取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。在预训练阶段结束之后只使用Discriminator作为下游任务精调的基模型。换句话说作者们把CV领域的GAN运用到了自然语言处理。值得注意的是尽管与GAN的训练目标相似但仍存在一些关键差异。首先如果生成器碰巧生成了正确的token则该token被视为“真实”而不是“伪造”所以模型能够适度改善下游任务的结果。更重要的是生成器使用最大似然来训练而不是通过对抗性训练来欺骗判别器。2、中文ELECTRA预训练模型目前已有的开源 ELECTRA 预训练模型只是英文的预训练模型。但世界上还有许多其他语言例如中文研究的学者他们需要与其相应的语言预训练模型。然而谷歌官方除了BERT、RoBERTa等预训练模型有多语言版本外其他例如XLNet、T5都没有相应的多语言版本只有英文。其中原因在于相比于只在英语上做预训练多语言的预训练需要收集相应语料需要调配不同语言语料的比例等比较麻烦。因此大概率上ELECTRA 也不会出中文版或多语言版的预训练模型。而另一方面作为中文社区我们国人自己对如何做中文的预训练则更为了解我们自己来做相应的预训练可能会比谷歌官方来做会更好。由哈工大讯飞联合实验室资深级研究员、研究主管崔一鸣所带领的团队之前曾做过系列类似的开源工作即基于开源预训练代码加上中文数据集来训练中文版预训练模型。例如中文版的系列BERT模型、中文版XLNet等在GitHub上开源后反响不错在许多中文评测任务中也曾有不少队伍使用他们开源的预训练模型进行改进。开源地址https://github.com/ymcui/Chinese-BERT-wwm开源地址https://github.com/ymcui/Chinese-XLNet在谷歌开源ELECTRA之后崔一鸣等人再次推出中文版 ELECTRA。训练数据集仍和之前训练BERT系列模型所用数据是一致的主要来自大规模中文维基及通用文本中文网页爬取和清洗总token达到5.4B。词表方面沿用了谷歌原版BERT的WordPiece词表包含21128个token。在本次的开源中崔一鸣等人只发布了ELECTRA-base 和ELECTRA-small 两个模型。据崔一鸣表示large版本由于参数较多超参设置比较困难因此模型发布会相应延后。已发布的两个版本各自训练了大约7天时间由于small版本的参数仅为base版本的1/10在训练中崔一鸣等人将其batch调为1024是base的4倍。具体细节和超参如下未提及的参数保持默认ELECTRA-base:12层隐层76812个注意力头学习率2e-4batch256最大长度512训练1M步ELECTRA-small:12层隐层2564个注意力头学习率5e-4batch1024最大长度512训练1M步ELECTRA-small 仅 46 M。在效果上崔一鸣等人将之与他们之前做的系列中文版预训练模型进行了效果对比。对比模型包括ELECTRA-small/base、BERT-base、BERT-wwm、BERT-wwm-ext、RoBERTa-wwm-ext、RBT3。对比任务有六个CMRC 2018 (Cui et al., 2019)篇章片段抽取型阅读理解简体中文DRCD (Shao et al., 2018)篇章片段抽取型阅读理解繁体中文XNLI (Conneau et al., 2018)自然语言推断三分类ChnSentiCorp情感分析二分类LCQMC (Liu et al., 2018)句对匹配二分类BQ Corpus (Chen et al., 2018)句对匹配二分类在下游任务精调中ELECTRA-small/base模型的学习率设为原论文默认的3e-4和1e-4。值得注意的是这里的精调并没有针对任何任务进行参数精调。为了保证结果的可靠性对于同一模型他们使用不同随机种子训练10遍汇报模型性能的最大值和平均值括号内为平均值。效果如下简体中文阅读理解CMRC 2018评价指标为EM / F1繁体中文阅读理解DRCD评价指标为EM / F1自然语言推断XNLI评价指标为Accuracy情感分析ChnSentiCorp评价指标为Accuracy句对分类LCQMC评价指标为Accuracy句对分类BQ Corpus 评价指标为Accuracy从以上的结果可以看出对于ELECTRA-small模型其效果在多数任务上显著超过3层RoBERTa效果RBT3甚至是接近BERT-base的效果而在参数量上只有BERT-base模型的1/10。对于ELECTRA-base模型来说在多数任务上超过了BERT-base甚至是RoBERTa-wwm-ext的效果。其具体使用可以查看Github项目https://github.com/ymcui/Chinese-ELECTRA