网站建设douyanet,做电商网站的感想,海外网站怎么浏览,长沙网站制作价seq2seq
seq2seq#xff1a;输入序列#xff0c;输出序列#xff0c;将输入的语言转为一个向量#xff0c;最后输出再将向量转为语言shortcoming:The final state is incapable of remembering a long sequence.即太长了记不住
attention
用attention可以改进seq2seq中的…seq2seq
seq2seq输入序列输出序列将输入的语言转为一个向量最后输出再将向量转为语言shortcoming:The final state is incapable of remembering a long sequence.即太长了记不住
attention
用attention可以改进seq2seq中的遗忘问题大幅提高准确率但是计算特别大attention会在encoder中的最后阶段s计算s和之前的每个h计算相关性告诉模型前面的哪些内容更重要即计算权重解决遗忘问题decoder每次更新状态时都会与encoder进行对比一次并且计算权重下次再更新状态时又重新对比encoder所有状态计算权重这样解决了遗忘问题了
self-attention
RNN都存在遗忘问题self-attention每一轮更新状态时都会重新看一遍前面的信息防止遗忘。self-attention相比attention更加广泛使用不局限与seq2seq模型可以用于所有rnn
transformer
是seq2seq不是rnn只有attention和dense layers刚开始有人提出过RNN然后为了改进RNN遗忘问题提出了ATTENTION用于解决seq2seq的遗忘问题后来发现SELF-ATTENTION 相比Attetion应用更加广泛可以用于任何RNN模型最后有人提出ATTENTION 可以剔除RNN效果更好传统的RNN网络存在不能并行计算的问题transformer可以并行。self-attention机制来进行并行计算在输入和输出都相同
bert
bert是为了预训练Transformer中的encoder bert其实就是只有编码器的transformer。 首先训练第一个任务是随机遮挡单词然后通过梯度下降调参让predict与被遮挡的单词尽量接近所以这个训练无需人工标注训练集自动生成模型自动训练好参数 然后训练第二个任务是判断两个句子是否相连接。 bert想法简单效果好但是计算量特别大
好处
使用预训练好的模型来抽词、句子的特征。预训练模型抽取了足够的信息不用更新预训练好的模型需要构建新的网络来抓取新任务需要的信息 新的任务只需要增加一个简单的输出层相比于word2vec、语言模型来模型说更加优秀因为word2vec忽略了时序信息语言模型只看一个方向基于微调的NLP模型
本文推荐看看shusenwang在bilibili上的课程。