当前位置: 首页 > news >正文

福田网站建设推广大数据营销教材

福田网站建设推广,大数据营销教材,单页面应用的网站,网站能找到做网站的人参考文献#xff1a; Speech Recognition (option) - Alignment of HMM, CTC and RNN-T哔哩哔哩bilibili 2020 年 3月 新番 李宏毅 人类语言处理 独家笔记 Alignment - 7 - 知乎 (zhihu.com) 本次省略所有引用论文 目录 一、E2E 模型和 CTC、RNN-T 的区别 E2E 模型的思路 C… 参考文献 Speech Recognition (option) - Alignment of HMM, CTC and RNN-T哔哩哔哩bilibili 2020 年 3月 新番 李宏毅 人类语言处理 独家笔记 Alignment - 7 - 知乎 (zhihu.com) 本次省略所有引用论文 目录 一、E2E 模型和 CTC、RNN-T 的区别 E2E 模型的思路 CTC、RNN-T 模型的思路 二、待解决的问题 三、对齐方式介绍 四、穷举方式 穷举 HMM 穷举 CTC 穷举 RNN-T 五、总结 一、E2E 模型和 CTC、RNN-T 的区别 E2E 模型的思路 实际上对于端对端模型来说比如 LAS它在解码的时候都是去寻找一个 token 序列使得 P of Token Sequence Y given Acoustic features vectors X 最大。   为什么这么说我们来简单看一下 LAS 的结构每一次我们都是输出一个概率分布我们就可以将这个概率分布作为输出 token 的概率因此将最后所有 token 的概率相乘结果就是 P(Y|X)。 当然在解上面那个式子的时候我们也并不是直接找出每一个概率分布中最大的 token而是采用束搜索等策略去找最优解。而在训练过程中我们也可以将训练目标带入上面的式子。假设 Y^hat 就是最终正确的结果那么训练目标就是找一个最优的模型参数来让P(Y^hat|X)越大越好。   CTC、RNN-T 模型的思路 对于 CTC 和 RNN-T由于 token 序列和声学特征序列的长度不同直接计算 token 序列对应的声学特征序列的概率是做不到的。它们额外的需要对齐操作。 以 CTC 为例假设输出的 token 序列为 “ab”声学特征序列有 4 个由于二者长度不同所以我们需要让 a 和 b 进行复制或者在其中插入 ∅ 符号让它的长度变得和输入的声学特征序列长度一致才能计算P(Y|X)。 因此实际上CTC 和 RNN-T 只能计算某一种对齐方式的概率而难以计算产生某一个 token 序列的概率。那我们应该怎么办这里采取的解决方法是借鉴 HMM 的做法将所有可能的对齐方式的概率都加起来当作最终这个 token 序列的概率公式如下。此外训练和解码过程都可以参考之前端对端模型的方式。   二、待解决的问题 首先我们应该如何穷举所有可能的对齐方式实际上CTC 和 RNN-T 与 HMM 的穷举方式相同。 其次我们应该如何将所有对齐方式的概率进行相加 然后我们应该如何训练这些模型HMM 采用的是 forward 算法而 CTC 和 RNN-T 使用的是梯度下降法那么对于很多个对齐方式加起来的概率结果我们要怎样算梯度呢 最后我们应该如何进行推断与解码去解决我们的目标式子呢 三、对齐方式介绍 HMMCTC 和 RNN-T 要做的对齐有相似的地方也有不同。我们假设输入有 6 个声学特征向量长度 T6以 character 为 token 单位虽然对 HMM 来说这个单位还是太大了输出是 c, a, t长度 N3。 对于 HMM 来说它要做的事情就是将 cat 3个字母进行重复让重复后的长度等于声学特征向量序列长度。 对于 CTC 来说它有两种方式一种是对 cat 3个字母进行复制也可以在其中插入 符号最终使得长度等于声学特征向量序列长度。参考它的推理过程是将 ∅ 符号拿掉将 ∅ 符号之间重复的字母缩减为一个字母 对于 RNN-T则是在其中加入和声学特征向量序列长度相同个数的 ∅ 符号。 四、穷举方式 穷举 HMM 我们应该如何穷举 HMM 的所有对齐方式呢我们可以将刚刚讲述的 HMM 对齐方式转化为伪函数过程 这里 字母 c 重复 t1 次a 重复 t2 次以此类推 此外由于必须出现所有的字母所以 ti 0。 随后我们就可以以此来绘制状态图Trellis Graph状态图如下 我们需要从左上的红点到右下的蓝点。 走的方法可以是向右下走也可以横着走。 向右下走代表输出下一个字母横着走代表复制当前的字母。、 状态图可以很好地规避非法的对齐方式非法的对齐方式是走不到终点的。 穷举 CTC CTC 和 HMM 不同的地方在于它还可以在其中插入 ∅ 符号开头和结尾都可以插入我们将这个过程转为伪函数如下 首先是开头就可以输出 ∅ 符号也可以选择不输出 其次就是每轮输出当前符号和 ∅ 符号的数量 并且 token 数量和 ∅ 数量加在一起需要等于声学特征向量序列长度。 我们将状态图进行绘制如下 我们需要从红点移动向2个蓝点的其中一个。 开始出发的时候有两种选择去 ∅ 行和去字母行。 在字母行可以有三种选择横走复制右下走插入 ∅走日即输出下一个字母。 不过如果一开始选择进入 ∅ 行则走法与选择又会不一样 相比于在字母行∅ 行只有两种选择。 可以横走复制可以右下走进入下一个 token而不可以走日。 因此我们说CTC 在不同的 row 有不同的走法。最终的终点也有两种。 我们举几个合法的对齐方式的例子并绘制其状态图 不过CTC 也有特殊的情况。参考 CTC 在推理时采取的策略如果遇到 token 序列中前后两个 token 相同的话我们在第一个相同的 token 行中就只有两种走法比如下面这个输出 ”see“ 的例子 此时在进入第一个 e 的行中我们就只能有两种走法 可以进行复制可以插入 ∅ 行但是不能直接跳到下一个 e 行 如果直接进入下一个 e 行那就代表连续输出两个 e那么在推断时CTC 就会将两个 e 融合在一起最终只输出一个 e。 穷举 RNN-T 在 RNN-T 中则是插入和声学特征向量序列长度相同的 ∅也就是 T 个 ∅。我们弄清楚它的规则后一个声学特征向量可以一直输出 token让它看个爽直到输出 ∅ 为止表示看爽了可以进入下一个向量就可以将伪代码写出 在 cat 三个字母中我们有 4 个位置可以插入并且由于 RNN-T 要判断是否结束所以在 cat 最后的部分我们必须要插入 ∅因为 RNN-T 看到 ∅ 就表示要进入下一个声学特征向量了 每一次我们都会输出第 n 个 token并输出一定数量cn的 ∅。 前几次可以选择不输出 ∅但是最后一次 cN 必须输出 ∅。 cn 加起来的和必须要等于声学特征向量序列长度。 我们将上述过程转化为状态图为了保证最后一定以 ∅ 结尾我们在最后一行的右方又多挖了一个格子 我们从左上方的蓝点需要走到右下方的蓝点 一共有两种走法一种是横走表示插入 ∅还有一种是往下走表示进入下一个 token。 由此可见最后一行向右多了个格子可以保证最后一步一定是横走插入 ∅。 我们绘制了几条可能的对齐方式也给了不合法的对齐方式走出框外 五、总结 我们将每个模型的状态机图绘制而出进行比对 HMM 从 c 开始可以进行复制也可以跳到下一个 token CTC 可以从 ∅ 开始也可以从 c 开始也有两种结束方式从 t 结束、从 ∅ 结束可以进行复制也可以选择去 ∅也可以选择进入下一个 token。 RNN-T 则可以从 ∅ 或者 c 开始不过最后一定以 ∅ 结束。并且每个token 进去以后就需要立马出来而不可以再次生成当前的 token。
http://www.huolong8.cn/news/128203/

相关文章:

  • 为什么很多公司没自己的网站前端设计是什么意思
  • 建一个团购网站要多少钱苏州网站设计公司兴田德润在哪里呢
  • 怎么提交网站关键词求个没封的网站2022
  • 公司自己做网站备案做的网站打不开
  • 南京最好的网站设计公司六安建设厅网站
  • 沈阳市网站制作公司做外贸上哪些网站
  • 南京的网站建设公司哪家好php 做网站
  • 温州网站建设设计公司孝感58同城网站建设
  • 中卫网站设计公司排名做网站的公司都很小吗
  • 专业免费网站建设一般多少钱互联网产品设计
  • 网站建设gzzctyi自己用电脑网站建设
  • 网站广告形式网站设计费用一览表
  • 有的域名怎样做网站阿里云腾讯云网站建设
  • 网站建站管理系统广州seo网站推广费用
  • 阳东网站seo开小程序要多少钱
  • 做免费漫画网站有风险吗百度指数有什么参考意义
  • 网页策划书 网站建设定位wordpress和wiki
  • 国外免费网站域名服务器查询网站制作公司 全贵州
  • 公众号链接网站都是怎么做的网站模板制作与安装教程视频
  • 个人怎么做影视网站广州企业网站找哪里
  • 做企业网站的哪家好房地产客户管理系统有哪些
  • 网站开发与兼容模式怎么把网站推广出去
  • 建设网站方面的证书做网站用什么语言开发
  • 营销型网站建设ppt模板下载wordpress 亲子主题
  • 网站建设服务器篇邯郸整站优化
  • 网站开发入门mvc网站入口asp
  • 可以做网站的网络北京建设网站设计
  • 成都网站建设公司 四川冠辰科技网站建设与管理 pdf
  • 教学网站模板下载什么是网站链接优化
  • 巩义网站河北省住房和城乡建设厅信用网站