当前位置: 首页 > news >正文

wordpress 主题 博客seo关键词排名优化制作

wordpress 主题 博客,seo关键词排名优化制作,环保部建设项目影响登记网站,网络运维培训大概多少钱本文是LLM系列文章#xff0c;针对《NarrowBERT: Accelerating Masked Language Model Pretraining and Inference》的翻译。 NarrowBERT#xff1a;加速掩蔽语言模型的预训练和推理 摘要1 引言2 NarrowBERT3 实验4 讨论与结论局限性 摘要 大规模语言模型预训练是自然语言处…本文是LLM系列文章针对《NarrowBERT: Accelerating Masked Language Model Pretraining and Inference》的翻译。 NarrowBERT加速掩蔽语言模型的预训练和推理 摘要1 引言2 NarrowBERT3 实验4 讨论与结论局限性 摘要 大规模语言模型预训练是自然语言处理中一种非常成功的自监督学习形式但随着时间的推移模型和预训练语料库变得越来越大执行成本越来越高。我们提出了NarrowBERT这是一种改进的transformer编码器它将掩蔽语言模型预训练的吞吐量提高了2倍以上。NarrowBERT稀疏transformer模型使得自注意查询和前馈层在预训练期间仅对每个句子的掩蔽标记进行操作而不是像通常的transformer编码器那样对所有标记进行操作。我们还表明在MNLI等句子编码任务上NarrowBERT在推理时的吞吐量增加了3.5倍性能下降最小或没有。最后我们检查了NarrowBERT在IMDB和Amazon评论分类和CoNLL NER任务上的性能并表明它也与标准BERT性能相当。 1 引言 2 NarrowBERT 3 实验 4 讨论与结论 我们已经探索了在掩蔽语言模型损失计算中利用稀疏性的两种直接方法重新排列transformer编码器的层以允许前馈组件避免在非掩蔽位置上进行计算以及在注意力机制中稀疏查询以仅将掩蔽位置上下文化。NarrowBERT变体可以将训练速度提高约2倍将推理速度提高约3倍同时在GLUE、IMDB、Amazon和CoNLL NER任务上保持非常相似的性能。基于第3节中速度和性能之间的有利权衡我们建议从业者在缩小范围之前考虑使用具有2或3层的SparseQueries NarrowBERT模型。 局限性 由于我们的预算限制我们只对基本尺寸的transformer模型进行了预训练和下游实验。我们也只应用了掩蔽语言建模目标但还有其他有效的预训练目标。尽管如此由于我们在架构中引入了最小的更改我们希望后续工作将从我们的缩小操作中受益并进行更广泛的预训练和下游实验。虽然预训练的模型可以应用于更多的下游任务但我们在这项工作中设计了一个合理的任务集包括GLUE句子分类和CoNLL-NER顺序分类任务。
http://www.yutouwan.com/news/115801/

相关文章:

  • 天猫商城入口如何搭建 seo网站
  • 怎么建设网站zy258h5个人页面制作
  • 定制高端网站建设如果你会建网站
  • 天水市秦州区作风建设年网站大气的公司名称大全
  • 东莞没有网站的公司网站建设 徐州
  • 网站建设具体详细过程网站制作东莞
  • 东莞数据线厂家东莞网站建设sem可以为网站建设做什么
  • 网站建设怎么跑业务手机网站qq登录插件
  • 织梦网站搜索怎么做网站开发投标文件
  • 大连企业网站网页设计及讲解多少钱
  • 电子通讯录网站建设北京今天的最新发布消息
  • 企业建设网站的主要目的淘宝下载安装
  • 网站规划与建设规划书超级外链自动发布工具
  • 北京网站建设免费网站一级a做爰在免费线看
  • 网站模板的缺点织梦汽车网站模板
  • 建设集团有限公司网站网站投入费用
  • 网站 做实名认证吗网站 手机 app
  • 内江市网站建设python 手机网站开发
  • 如何判断网站是否被k易语言 网站开发
  • 网站建设招标无锡建设网站成都
  • 上海网站排名团队logo设计在线生成免费影子
  • 西安知名的集团门户网站建设公司杭州网站建设培训班
  • 建设行业网站价格创建网店需要wordpress
  • 云浮新兴哪有做网站的社交网站 源码
  • 域名和网站建设实训报告广告优化师招聘
  • 企业免费建站网站网站开发 保修期
  • dede 网站源码wordpress4.8下载
  • asp做网站教程网站系统源代码
  • 有个虚拟服务器建设网站佛山网站建设工作
  • 网站建设是 口号上海优化外包