当前位置: 首页 > news >正文

制作一个在线收费网站网页设计的定义

制作一个在线收费网站,网页设计的定义,免费seo网站诊断免费,开源程序网站文章目录 Transformer1.了解Seq2Seq任务2.Transformer 整体架构3.Encoder的运作方式4.Decoder的运作方式5.AT 与 NAT6.Encoder 和 Decoder 之间的互动7.Training Transformer 1.了解Seq2Seq任务 NLP 的问题#xff0c;都可以看做是 QA#xff08;Question Answering#x… 文章目录 Transformer1.了解Seq2Seq任务2.Transformer 整体架构3.Encoder的运作方式4.Decoder的运作方式5.AT 与 NAT6.Encoder 和 Decoder 之间的互动7.Training Transformer 1.了解Seq2Seq任务 NLP 的问题都可以看做是 QAQuestion Answering的问题QA 的问题可以看做是 Sequence to Sequence 的问题。 Sequence to Sequence 是一个常见的任务类型例如语音识别、语音翻译语音辨识、机器翻译、Chatbot、Text-to-Speech (TTS) Synthesis文本到语音合成、语法分析、多标签分类、目标检测等等。 Sequence to Sequence 任务可以由各种序列模型执行其中 RNN 模型是经典的用于序列数据的模型而随着 Transformer 的出现和成功它已经在许多序列任务中取代了传统的RNN架构。 Transformer 实际上就是一个关于 Seq2Seq 的 model 2.Transformer 整体架构 整体架构分为两部分Encoder 与 Decoder 3.Encoder的运作方式 Encoder 做的就是输入一个Vector sequence输出一个Vector sequence. Encoder的运作方式如下所示 Encoder 里面是由多个 Block 组成的经过多个 Block 的堆叠最后得到一个Vector sequence. 每个 Block 所做的事情如下对于输入的每一个 Vector sequence首先通过 Multi-Head Attention 得到输出 a a a然后通过残差连接得到 a b ab ab之后通过 Layer Norm 得到正则化后的Vector sequence接着送到 Fully Connection layer同样使用残差连接并使用 Layer Norm 得到 Encoder 的输出。 4.Decoder的运作方式 Decoder 可以分为Decoder-Autoregressive(AT) 与 Decoder-Non-autoregressive(NAT)在transformer中使用的是 Decoder-Autoressive. Decoder 做了什么 Decoder 部分首先输入一个 START经过 Decoder 并且使用 Softmax 就会得到一个概率分布然后对这个概率分布使用 max 得到概率最大的那个值也就是one-hot编码。 紧接着将得到的输出作为输入送入 Decoder 不断的迭代这个过程就得到了最后的输出。 在 Decoder 中用了一个 Masked Multi-Head Attention. Masked Self-atttention 每次一个 vector 在输出的时候不可以看右边的部分也就是说在产生 b 1 b^1 b1 的时候不能在考虑 a 2 , a 3 , a 4 a^2,a^3,a^4 a2,a3,a4产生 b 2 b^2 b2 的时候不能考虑 a 3 , a 4 a^3,a^4 a3,a4产生 b 3 b^3 b3 的时候不能考虑 a 4 a^4 a4 产生 b 4 b^4 b4 的时候就可以考虑全部的信息了。 具体细节如下图所示 目前的这个 Decoder 运作机制不知道它应该什么时候停下来。 为了让其停下来所以要有一个END的标记。 通过这个 END 的标记来让模型停下来。 5.AT 与 NAT AT Decoder 传入的是一个 START然后一个一个的进行输出。NAT Decoder 直接传入多个 START同时输出。 NAT好处平行化一个步骤产生出完整的句子可以控制输出的长度。怎么控制可能会有一个 classifier 来决定输出的长度或者输入很多个 START那么就会输出很多个输出忽略 END 之后的输出 6.Encoder 和 Decoder 之间的互动 Encoder 和 Decoder 之间的互动是通过 Cross attention 机制进行互动的。主要过程就是将 Decoder 中通过第一个 Masked Multi-Head Attention 以及 Add 与 Norm 后的 vector sequence 与 encoder 输出中的所有 vector sequence 进行 qkv 的计算。计算流程见下图 ①第一个输出的计算 ②第二个输出的计算 7.Training 在decoder输入的时候要输入正确的答案Teacher Forcing技术使用真实的标签作为输入 把正确答案 Ground truth 给模型让其与 distribution 进行 cross entropy每一个输出有一个cross entropy将这些 cross entropy 求和进行梯度下降求解最好的参数希望 decoder 的输出跟正确答案越接近越好。 参考链接 【强烈推荐台大李宏毅自注意力机制和Transformer详解】 https://www.bilibili.com/video/BV1v3411r78R/?p3share_sourcecopy_webvd_sourcea36f62f9fcd2efea97449039538032fa
http://www.huolong8.cn/news/59648/

相关文章:

  • 网站建设必备南昌网站建设行业现状
  • 响应式网站设计软件西安 北郊网站建设
  • 厦门某某公司网站网站建设创建
  • 自己做的网站如何上传文件蒙自做网站的公司
  • 网站后台不能排版外贸网站建站h
  • 企石东莞网站建设深圳公司设计网站
  • 石家庄网站建设电商织梦wap网站模板
  • 杨凌规划建设局网站深圳市罗湖区住房和建设局官网
  • 唐山网站制作广告公司营销策划方案
  • 西宁手机微网站z怎么做优惠券网站
  • 网站实名认证需要什么资料dz论坛怎么做视频网站吗
  • html设计网站上海手机网站案例
  • 做网站界面多少钱网页游戏制作工具
  • 天津电子商务网站小程序和网站建设需要多钱
  • 昆明网站托管企业wordpress文章链接带问号
  • 新手建站教程报价单适合用于网站开发的工具
  • 专门做评测的网站有哪些网站怎样在360做优化
  • 中小企业网站制作费用开发公司年终总结
  • 免费的cms视频网站做公司网站需要准备什么科目
  • 网站建设中主页源码wordpress怎么换语言
  • 网站建设战略伙伴京紫元年深圳网站建设
  • 南通影楼网站建设个人新闻类网站模板
  • 没有网站做cpa购物网站建设成本
  • 怎样大力开发公司网站建设wordpress 4.5.2 编辑器插件
  • 网站建设的课程都需要什么网站建设数据库实训体会
  • 天河岗顶棠下上社网站建设备份核验单时网站域名
  • 静态html网址网站导航源码商城型网站建设
  • 网站 只收录首页wordpress模板排行榜
  • 企业品牌网站建设定制开发wordpress页脚插件
  • 梅州英文网站建设wordpress在线文件管理插件