当前位置: 首页 > news >正文

网站设计是什么意思中信建设有限责任公司海南分公司

网站设计是什么意思,中信建设有限责任公司海南分公司,网站模板破解版,苏州网站建设联系苏州梦易行本文是LLM系列文章#xff0c;针对《NarrowBERT: Accelerating Masked Language Model Pretraining and Inference》的翻译。 NarrowBERT#xff1a;加速掩蔽语言模型的预训练和推理 摘要1 引言2 NarrowBERT3 实验4 讨论与结论局限性 摘要 大规模语言模型预训练是自然语言处…本文是LLM系列文章针对《NarrowBERT: Accelerating Masked Language Model Pretraining and Inference》的翻译。 NarrowBERT加速掩蔽语言模型的预训练和推理 摘要1 引言2 NarrowBERT3 实验4 讨论与结论局限性 摘要 大规模语言模型预训练是自然语言处理中一种非常成功的自监督学习形式但随着时间的推移模型和预训练语料库变得越来越大执行成本越来越高。我们提出了NarrowBERT这是一种改进的transformer编码器它将掩蔽语言模型预训练的吞吐量提高了2倍以上。NarrowBERT稀疏transformer模型使得自注意查询和前馈层在预训练期间仅对每个句子的掩蔽标记进行操作而不是像通常的transformer编码器那样对所有标记进行操作。我们还表明在MNLI等句子编码任务上NarrowBERT在推理时的吞吐量增加了3.5倍性能下降最小或没有。最后我们检查了NarrowBERT在IMDB和Amazon评论分类和CoNLL NER任务上的性能并表明它也与标准BERT性能相当。 1 引言 2 NarrowBERT 3 实验 4 讨论与结论 我们已经探索了在掩蔽语言模型损失计算中利用稀疏性的两种直接方法重新排列transformer编码器的层以允许前馈组件避免在非掩蔽位置上进行计算以及在注意力机制中稀疏查询以仅将掩蔽位置上下文化。NarrowBERT变体可以将训练速度提高约2倍将推理速度提高约3倍同时在GLUE、IMDB、Amazon和CoNLL NER任务上保持非常相似的性能。基于第3节中速度和性能之间的有利权衡我们建议从业者在缩小范围之前考虑使用具有2或3层的SparseQueries NarrowBERT模型。 局限性 由于我们的预算限制我们只对基本尺寸的transformer模型进行了预训练和下游实验。我们也只应用了掩蔽语言建模目标但还有其他有效的预训练目标。尽管如此由于我们在架构中引入了最小的更改我们希望后续工作将从我们的缩小操作中受益并进行更广泛的预训练和下游实验。虽然预训练的模型可以应用于更多的下游任务但我们在这项工作中设计了一个合理的任务集包括GLUE句子分类和CoNLL-NER顺序分类任务。
http://www.yutouwan.com/news/80392/

相关文章:

  • 网站建设与服务技能实训心得体会展馆公司
  • asp.net网站建设项目实战 董义革网站开发 项目规划 怎么写
  • 一个简易网站怎么做制作网页的代码实例
  • 机关网络 网站 建设有关中国文明网联盟网站建设活动方案
  • 广安做网站郑州注册公司网站
  • 建设网站北京市wordpress死链跳转
  • 北京网站设计工作室做企业网站应该注意什么
  • 用python做的大型网站西部数码搭建多个wordpress
  • 网站上有声的文章是怎么做的怎么建立一个博客网站吗
  • 深州市住房保障和城乡建设局网站建筑设计防火规范
  • 网站底部 设计个人网站内容怎么写
  • 如何免费做网站推广的广东东莞属于哪个市
  • 8有免费建网站建设主管部门指定网站
  • 成都企业网站设计生物信息网站建设
  • 福建省建设系统网站站酷网怎么赚钱
  • scatter网站开发深圳财务小公司网站
  • 长春网站设计团队互动营销经典案例
  • 公司网站建设有哪些郑州网站制作公司哪家好
  • 网站开发范围佛山网站建设企业推荐
  • 网站备案更换深圳电器公司招聘信息
  • 福建省亿力电力建设有限公司网站上海徐汇区网站建设
  • 国外做化工网站今天上海最新新闻事件
  • 做彩网站网站标题优化 英文
  • 网站建设保定登陆Wordpress手机app
  • 网站建设实训课游戏网站建设项目规划书案例
  • 网站建设带后台怎样做自己的网页
  • 广州市网站网站前端程序制作开发
  • 中国亚马逊跨境电商江苏seo团队
  • 网站风格介绍怎么一个网站做的竞价
  • 怎样用FW做网站的首页做视频网站要申请什么许可证