网站所有权包括,竞争者网站建设情况,免备案虚拟空间,长春哪家网络公司做网站专业文章目录1. 基础模型2. 选择最可能的句子3. 集束搜索#xff08;Beam Search#xff09;4. 改进集束搜索5. 集束搜索的误差分析6. Bleu 得分7. 注意力模型直观理解8. 注意力模型9. 语音识别#xff08;Speech recognition#xff09;10. 触发字检测#xff08;Trigger Wor…
文章目录1. 基础模型2. 选择最可能的句子3. 集束搜索Beam Search4. 改进集束搜索5. 集束搜索的误差分析6. Bleu 得分7. 注意力模型直观理解8. 注意力模型9. 语音识别Speech recognition10. 触发字检测Trigger Word Detection作业参考吴恩达视频课深度学习笔记序列模型和注意力机制Sequence models Attention mechanism
1. 基础模型
seq2seq : 语言翻译 image to sequence图片描述
2. 选择最可能的句子 条件语言模型 和之前的 语言模型 一个主要的区别
语言模型 随机地生成句子条件语言模型你要找到最有可能的英语句子但是句子组合数量过于巨大需要一种合适的搜索算法集束搜索Beam Search
3. 集束搜索Beam Search 在 集束宽为3时集束搜索一次只考虑3个可能结果
如果集束宽等于1就变成了贪心搜索算法 同时考虑多个可能的结果比如3个10个或者其他的个数集束搜索通常比贪婪搜索更好
4. 改进集束搜索
上节讲到 集束搜索 要选出条件概率最高的前 B 个公式如下 argmaxy∏t1TyP(yt∣x,y1,…,yt−1)\arg \max _{y} \prod_{t1}^{T_{y}} P\left(y^{t} \mid x, y^{1}, \ldots, y^{t-1}\right)argymaxt1∏TyP(yt∣x,y1,…,yt−1) 展开就是下面的式子 P(y2∣X,y1)P(y3∣X,y1,y2)…P(yTy∣X,y1,y2…yTy−1)P\left(y^{2} \mid X, y^{1}\right) P\left(y^{3} \mid X, y^{1}, y^{2}\right) \ldots P\left(y^{T_{y}} \mid X, y^{1}, y^{2} \ldots y^{T_{y}-1}\right)P(y2∣X,y1)P(y3∣X,y1,y2)…P(yTy∣X,y1,y2…yTy−1)
上式缺点
概率越乘越小向下溢出式子倾向于给出更短的句子概率相乘没有那么小
采用取 log 的式子
argmaxy∑y1TylogP(yt∣x,y1,…,yt−1)\arg \max _{y} \sum_{y1}^{T_{y}} \log P\left(y^{t} \mid x, y^{1}, \ldots, y^{t-1}\right)argymaxy1∑TylogP(yt∣x,y1,…,yt−1)
再对长度进行归一化乘以系数
argmaxy1Tyα∑y1TylogP(yt∣x,y1,…,yt−1)\arg \max _{y} \frac{1}{T_y^{\alpha}}\sum_{y1}^{T_{y}} \log P\left(y^{t} \mid x, y^{1}, \ldots, y^{t-1}\right)argymaxTyα1y1∑TylogP(yt∣x,y1,…,yt−1)
超参数 α0.7\alpha 0.7α0.7 常用0 没有归一化1 完全由长度来归一化
注意集束搜索 不一定搜到的是最优解是一种启发式搜索算法达到较好的效果 如何选择束宽 B
B 越大输出句子越好计算代价也大内存占用大B 较小输出效果没那么好计算快些内存占用小产品中常见 B 10科研看情况可以取大些效果好好发文章
5. 集束搜索的误差分析
怎样才能发现是 Beam搜索 算法出现了问题还是你的 RNN模型 出了问题 分析哪种错误更多
Beam搜索 算法造成了大部分错误时才值得花费努力增大集束宽度RNN模型 出了更多错可以进行更深层次的分析来决定是需要增加正则化还是获取更多的训练数据抑或是尝试一个不同的网络结构或是其他方案。(见第三门课)
6. Bleu 得分
机器翻译machine translation的一大难题是一个法语句子可以有多种英文翻译而且都同样好所以当有多个同样好的答案时怎样评估一个机器翻译系统呢
BLEU得分背后的理念观察机器生成的翻译然后看生成的词是否出现在 至少一个人工翻译参考之中 短的语句更容易有 更高的Bleu 得分较大的概率语句中的词语都在 参考语句中为了平衡这种情况使用 “简短惩罚” brevity penalty BLEU得分 是一个有用的单一实数评估指标用于评估生成文本的算法判断输出的结果是否与人工写出的参考文本的含义相似。
常用于 机器翻译图像描述 Bleu 有很多开源实现可以直接下载来用
7. 注意力模型直观理解 注意力权重at,ta^{t,t}at,t 告诉你当你尝试生成第 ttt 个英文词它应该花多少注意力在第 ttt 个法语词上面。
当生成一个特定的英文词时这允许它在每个时间步去看周围词距内的法语词要花多少注意力。
8. 注意力模型
注意力模型如何让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候更像人类翻译 9. 语音识别Speech recognition 10. 触发字检测Trigger Word Detection
设备唤醒手机助理汽车中控唤醒等 作业
作业机器翻译触发词检测 本文地址https://michael.blog.csdn.net/article/details/108908470
我的CSDN博客地址 https://michael.blog.csdn.net/
长按或扫码关注我的公众号Michael阿明一起加油、一起学习进步