当前位置: 首页 > news >正文

驻马店网站开发公司电话四川省建设岗位注册中心网站

驻马店网站开发公司电话,四川省建设岗位注册中心网站,怎样给网站做 站内搜索,网站改版的方式1 注意力机制概述 1.1 定义 注意力机制#xff08;Attention Mechanism#xff09;是深度学习领域中的一种重要技术#xff0c;特别是在序列模型如自然语言处理#xff08;NLP#xff09;和计算机视觉中。它使模型能够聚焦于输入数据的重要部分#xff0c;从而提高整体…1 注意力机制概述 1.1 定义 注意力机制Attention Mechanism是深度学习领域中的一种重要技术特别是在序列模型如自然语言处理NLP和计算机视觉中。它使模型能够聚焦于输入数据的重要部分从而提高整体性能和效率。 1.2 基本原理 聚焦关键信息 注意力机制模仿人类的注意力过程使模型能夠集中处理输入数据中的关键信息同时忽略不太相关的部分。 权重分配 通过为输入数据的不同部分分配不同的权重或注意力分数模型能够识别最重要的信息。 1.3 应用领域 自然语言处理NLP 在机器翻译、文本摘要、情感分析等任务中注意力机制帮助模型关注文本的关键部分。 计算机视觉 在图像分类、目标检测和图像字幕生成等任务中注意力机制使模型能够专注于图像的关键区域。 语音识别 注意力机制帮助模型关注语音信号的重要部分提高语音识别的准确性。 1.4 优势 提高性能 通过集中处理重要信息注意力机制可以提高模型的准确性和效率。 提供可解释性 注意力权重可以用来解释模型的决策过程增加模型的透明度。 灵活性强 可以与多种模型结构结合如循环神经网络RNN、卷积神经网络CNN和Transformer。 2 注意力机制分析 2.1 Encoder-Decoder框架 下面基于Encoder-Decoder框架对注意力机制深入分析Encoder-Decoder框架的原理如下 对于句子对sourcetarget: 编码器对输入source进行编码转换成中间语义向量C: 对于解码器Decoder根据中间语义向量C和当前已生成的历史信息来生成下一时刻要生成的单词 基本的Encoder-Decoder框架没有体现出注意力机制 把Decoder生成拆开来看 f是非线性变换函数在生成目标单词时使用的语义向量C都是一样的所以source中任意单词对某个单词y_i来说影响力都是相同的。 如果输入句子比较短对于输出影响不是很大但如果输入句子很长这时所有的语义都通过一个语义向量C来表示单词自身的信息会消失很多细节信息会被丢失最终的输出也会受到影响所以要引入注意力机制。 2.2 经典注意力机制 在机器翻译中比如输入source为Tom chase Jerry。输出想得到中文汤姆 追逐 杰瑞。在翻译Jerry这个单词时在普通Encoder-Decoder模型中source里的每个单词对“杰瑞”贡献是相同的但这样明显和实际不是很相符在翻译“杰瑞”的时候我们更关注的应该是Jerry对于另外两个单词关注的会少一些。 引入Attention模型后在生成“杰瑞“的时候会体现出输入source的不同影响程度比如 每个概率代表了翻译当前单词“杰瑞”时注意力分配模型分配给不同英文单词的注意力大小。 在注意力机制中对于target中每个单词都有一个对应source中单词的注意力概率。 由于注意力模型的加入原来在生成target单词时候的中间语义C就不再是固定的而是会根据注意力概率变化的加入了注意力模型的Encoder-Decoder框架如下 生成target的过程就变成了如下形式 每个可能对应着不同的注意力分配概率分布比如对于上面的英汉翻译来说其对应的信息可能如下 其中表示Encoder对输入英文单词的某种变换函数 比如如果Encoder是用RNN模型的话这个函数的结果往往是某个时刻输入后隐层节点的状态值。g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数一般g函数就是对构成元素的加权求和 其中代表输入句子Source的长度a_i_j代表在Target输出第i个单词时Source输入第j个单词的注意力分配系数代表Source输入句子中第j个单词的语义编码。举例输出汤姆如下 2.3 注意力分布 注意力分布α就是判断什么信息重要什么信息不重要分别赋予不同的权重。 如何计算α 用X表示输入当输入 N 个向量 [x1,...,xN]想要从中选出对于目标而言比较重要的信息需要引入目标任务的表示称为 查询向量query vector此时问题可以转换为考察输入的不同内容和查询向量之间的相关度也就是对不同内容进行打分赋予 与当前任务比较相关的部分 更大的权重再通过一个softmax层得到分布也就是输入信息的不同部分的权重。 注意力变量z∈[1, N]来表示被选择信息的索引位置即zi来表示选择了第i个输入信息然后计算在给定了q和X的情况下选择第i个输入信息的概率αi 其中αi构成的概率向量就称为注意力分布Attention Distribution。s(xi , q)是注意力打分函数有以下几种形式 其中W、U和v是可学习的网络参数d是输入信息的维度 加性模型引入了可学习的参数将查询向量 q 和原始输入向量 h 映射到不同的向量空间后进行计算打分显然相较于加性模型点积模型具有更好的计算效率。 另外当输入向量的维度比较高的时候点积模型通常有比较大的方差从而导致Softmax函数的梯度会比较小。因此缩放点积模型通过除以一个平方根项来平滑分数数值也相当于平滑最终的注意力分布缓解这个问题。 最后双线性模型可以重塑为即分别对查询向量 q 和原始输入向量 h 进行线性变换之后再计算点积。相比点积模型双线性模型在计算相似度时引入了非对称性。 形象表示打分函数 如果Encoder-Decoder都采用RNN框架如下 那计算注意力分布概率值的过程如下 表示Source中单词 j 对应的隐层节点状态表示Target中单词 i 的隐层节点状态注意力计算的是Target中单词 i 对Source中每个单词对齐可能性即打分函数。 计算α不只是编码器的隐藏状态作为输入解码器的隐藏状态也要作为输入 可以结合下图理解 2.4 加权分布  对于软性注意力机制就是每一个输入按各自权重加权平均即把每个编码器隐状态xi 和对应的注意力分布相乘求和 用图像形象表示 求和之和算出来的就是引入注意力机制的语义向量再将其输入到解码器中。 结合下图理解 这样Decoder的最终输出就会有选择性地关注应该关注的地方。
http://www.huolong8.cn/news/112299/

相关文章:

  • 电影网站开发文档宁国市有做网站
  • 有哪些是外国人做的网站吗无锡网站设计公司
  • 房地产网站建设与优化分析网站建设合同的注意点
  • dnf怎么做钓鱼网站邢台seo排名
  • 网站建设公司诺玺网络国家信息公示系统入口
  • 制作网站注册登录模块的思维导图好的办公室设计
  • 门户网站是专一化好还是多元化好什么是网络营销?请举几个例子说明
  • 江苏seo推广方案网站建设关键词优化价格
  • 广州做网站找哪家好建设网站怎么收费标准
  • 电子商务网站建设定位设想物流网站的功能与特色
  • 安阳实力网站建设首选佛山学校网站建设
  • 批量做网站软件江苏高端品牌网站建设
  • 大良o2o网站建设摄影工作室网站源码
  • 太原网站优化技术邯郸市城乡住房建设局网站
  • 个人简历模板免费网站互联网技术怎么学
  • 电子商务网站建设及推广方案论文wordpress 暖岛 主题
  • 如何做明星的个人网站wordpress自动保存编辑器图片
  • 建设网站宣传页建立平台还是搭建平台
  • 郑州优秀网站建设公司课程网站建设的财务分析
  • 买东西最便宜的网站河北住房和城乡建设厅网站驱动
  • 网站开发工具安全性能网页ui设计模板代码
  • 论述网站推广的方法与技巧wordpress建站详细教程视频
  • 某些网站网速慢百度法务部联系方式
  • 确定网站设计公司简报佛山seo优化排名
  • 火车头wordpress建站群中国设计最好的网站
  • 汕头哪里学网站建设最好长春建站软件
  • 建设局网站首页崔各庄地区网站建设
  • 网站的动态图怎么做的小程序招商
  • 宁波网站优化公司软件推广公司简介怎么写
  • 安徽省卫生计生网站医共体建设辽阳专业网站建设品牌