企飞互联网站建设网络公司,房地产知识问答100题,wordpress编辑菜单,如何仿制一个网站什么是NLP#xff1f; 自然语言处理#xff08;NLP#xff09; 是计算机科学#xff0c;人工智能和语言学的交叉领域。目标是让计算机处理或“理解”自然语言#xff0c;以执行语言翻译和问题回答等任务。 随着语音接口和聊天机器人的兴起#xff0c;NLP正在成为信息时代… 什么是NLP 自然语言处理NLP 是计算机科学人工智能和语言学的交叉领域。目标是让计算机处理或“理解”自然语言以执行语言翻译和问题回答等任务。 随着语音接口和聊天机器人的兴起NLP正在成为信息时代最重要的技术之一同时它也是人工智能的关键部分。充分理解和表达语言的含义是一个非常困难的目标。为什么因为人类的语言很特别。 人类语言有什么特别之处 1.人类语言是专门为传达说话人的意图而构建的系统。这不仅仅是一个环境信号更是一个有意识的交流。 2.人类语言大多是离散/符号的/分类的信号系统大概是因为信号可靠性更高。 3.一种语言的分类符号可以用几种方式编码为通信信号声音手势写作图像等。人类语言只是其中的一种。 4.人类语言是不明确的与编程和其他正式语言不同。 因此在表达、学习和使用语言/情境/情境/文字/视觉知识对人类语言方面存在高度复杂性。 NLP应用到哪里 从NLP研究领域衍生出了一批快速增长的应用程序。以下是其中几个 1.拼写检查关键字搜索查找同义词 2.从网站提取信息例如产品价格日期地点人员或公司名称 3.分类长文档的积极/消极情绪 4.机器翻译 5.口语对话系统 6.复杂的问答系统 事实上这些应用程序已经在现实中大量使用从搜索到在线广告匹配 ; 从自动/辅助翻译到营销或财务/交易的情绪分析 ; 从语音识别到chatbots /对话代理自动化客户支持控制设备订购商品。 深度学习 大部分NLP技术都是由深度学习提供技术支持。近几年深度学习才开始发挥作用主要是因为 ·大量的训练数据 ·更快的机器和多核CPU / GPU ·性能高的新模型和算法有效的端到端联合系统学习、有效的使用上下文和任务间转换的学习方法以及正则化优化方法。 在深度学习中表示学习试图自动学习来自原始输入的良好特征或表示。而在机器学习中手动设计的特征通常过多且不完整需要花费很长时间进行设计和验证。而且深度学习提供了一个非常灵活、通用且可学习的框架用于呈现视觉和语言信息的世界。最初它在语音识别和计算机视觉等领域取得突破。最近深度学习方法在许多不同的NLP任务中表现出了非常高的性能。这些模型通常可以通过单一的端到端模型进行训练并且不需要传统的特定于任务的特征工程。 我最近完成了斯坦福大学关于自然语言处理与深度学习的CS224n课程。该课程全面介绍了将深度学习应用于NLP的尖端研究。在模型方面它涵盖了词向量表示、基于窗口的神经网络、递归神经网络、长期短期记忆模型、递归神经网络和卷积神经网络以及一些涉及存储器组件的最新模型。 在此我想分享我学习的7种主要NLP技术以及使用它们的主要深度学习模型和应用程序。 福利你可以在此GitHub中获得相关课程 技术1文本嵌入Text Embeddings 在传统的NLP中我们将单词视为离散符号然后可以用one-hot向量表示。向量的维度是整个词汇表中单词的数量。单词作为离散符号的问题在于对于one-hot向量来说没有自然的相似性概念。因此另一种方法是学习在向量本身中编码相似性。核心思想是一个词的含义是由经常出现在其旁边的单词给出的。 文本嵌入是字符串的实值向量表示。我们为每个单词建立一个密集的向量选择它以便类似于类似上下文中出现的单词的向量。对于大多数NLP任务而言词嵌入被认为是一个很好的起点。它们允许深度学习在较小的数据集上也是有效的因为它们通常是深度学习体系的第一批输入也是NLP中最流行的迁移学习方式。在词嵌入中最流行的应该是Word2vec它是由谷歌Mikolov开发的模型另外一个是由斯坦福大学彭宁顿Socher和曼宁开发的GloVe。接着我们重点介绍这两种模型 在Word2vec中我们有一个庞大的文本语料库其中固定词汇表中的每个词都由一个向量表示。然后我们通过文本中的每个位置t其中有一个中心词c和上下文词o。接下来我们使用字向量的相似性Ç和Ò计算的概率ø给出Ç或反之亦然。我们不断调整单词向量来最大化这个概率。为了有效地训练Word2vec我们可以从数据集中去除无意义的单词。这有助于提高模型的准确性。 Word2vec有两个变体值得一提 1.Skip-Gram我们考虑一个包含k个连续项的上下文窗口。然后我们跳过其中一个单词尝试学习一个神经网络该网络可以获得除跳过的所有术语外的所有术语并预测跳过的术语。因此如果两个单词在大语料库中反复共享相似的上下文那么这些术语的嵌入向量将具有相似的向量。 2.Continuous Bag of Words我们在一个大的语料库中获取大量的句子每当我们看到一个词我们就会联想到周围的词。然后我们将上下文单词输入到神经网络并预测该上下文中心的单词。当我们有数千个这样的上下文单词和中心单词时我们就有了一个神经网络数据集的实例。我们训练神经网络最后编码的隐藏层输出表示一个特定的词嵌入。当我们通过大量的句子进行训练时类似上下文中的单词会得到相似的向量。 对Skip-Gram和CBOW的一个吐槽就是它们都是基于窗口的模型这意味着语料库的共现统计不能被有效使用导致次优的嵌入suboptimal embeddings。 GloVe模型旨在通过捕捉一个字与整个观测语料库的结构嵌入的含义来解决这个问题。为此该模型训练单词的全局共现次数并通过最小化最小二乘误差来充分利用统计量从而产生具有有意义子结构的单词向量空间。这样的做法足以保留单词与向量距离的相似性。 除了这两种文本嵌入外还有许多最近开发的高级模型包括FastTextPoincare嵌入sense2vecSkip-ThoughtAdaptive Skip-Gram我强烈建议你学习一下。 技术2机器翻译 机器翻译是语言理解的经典测试。它由语言分析和语言生成组成。大型机器翻译系统具有巨大的商业用途给你一些值得注意的例子 · 谷歌翻译每天翻译1000亿字 · Facebook使用机器翻译自动翻译帖子和评论中的文字以打破语言障碍让世界各地的人们相互交流 · 阿里巴巴使用机器翻译技术来实现跨境贸易连接世界各地的买家和卖家 · 微软为Android、iOS和Amazon Fire上的最终用户和开发人员提供基于人工智能的翻译无论他们是否可以访问互联网。 在传统的机器翻译系统中我们必须使用平行语料库一组文本每个文本都被翻译成一种或多种不同于原文的其他语言。例如给定源语言f例如法语和目标语言e例如英语我们需要建立多个统计模型包括使用贝叶斯规则的概率公式训练的翻译模型pf | e平行语料库和语言模型pe在纯英文语料库上训练。这种方法跳过了数百个重要细节需要大量的手工特征工程整体而言它是一个非常复杂的系统。 神经机器翻译是通过一个称为递归神经网络RNN的大型人工神经网络对整个过程进行建模的方法。RNN是一个有状态的神经网络它通过时间连接过去。神经元的信息不仅来自前一层而且来自更前一层的信息。 标准的神经机器翻译是一种端到端神经网络其中源语句由称为编码器的RNN 编码目标词使用另一个称为解码器。RNN编码器一次读取一个源语句然后在最后隐藏状态汇总整个源句子。RNN解码器使用反向传播学习这个汇总并返回翻译后的版本。神经机器翻译从2014年的一项边缘研究领域发展到2016年广泛采用的领先机器翻译方式那么使用神经机器翻译的最大成功是什么 1.端到端训练NMT中的所有参数同时被优化以最大限度地减少网络输出的损耗性能。 2.分布式表示的优势NMT更好地利用单词和短语的相似性。 3.更好地探索上下文NMT可以使用更多的上下文——源文本和部分目标文本以此进行更准确地翻译。 4.更流利的文本生成深度学习文本生成质量高于平行语料库。 RNN的一个大问题是梯度消失或爆炸问题其中取决于所使用的激活函数随着时间的推移信息会迅速丢失。直观地说这不会成为一个很大问题因为这些只是权重而不是神经元状态但是时间的权重实际上是存储过去的信息的地方如果权重达到0或1,000,000的值那么以前的状态将不会提供很多信息。因此RNNs在记忆序列中的前几个单词时会表现的很困难并且只能根据最近的单词进行预测。 长期/短期记忆LSTM网络试图通过引入门和明确定义的存储器单元来对抗梯度消失/爆炸问题。每个神经元都有一个存储单元和三个门输入、输出和忘记。这些门的功能是通过停止或允许信息流来保护信息。 ·输入门决定了来自上一层的多少信息存储在单元中 ·输出层在另一端获取任务并确定下一层有多少单元知道该单元的状态。 ·忘记门的作用起初看起来很奇怪但有时候忘记门是个不错的设计如果它正在学习一本书并开始新的一章那么网络可能需要忘记前一章中的一些字符。 已经证明LSTM能够学习复杂的序列例如像莎士比亚的写作或者创作原始音乐。请注意这些门中的每一个都对前一个神经元中的一个单元具有权重因此它们通常需要更多资源才能运行。LSTM目前非常流行并且在机器翻译中被广泛使用。除此之外它是大多数序列标签任务的默认模型其中有大量的数据。 门控重复单元GRU是在LSTM的基础上变形得来的也是神经机器翻译的扩展。它拥有更少的门并且连接方式略有不同它不是输入、输出和忘记门组成的而是具有更新门。这个更新门决定了从最后一个状态开始保留多少信息以及从上一个层开始输入多少信息。 复位reset门的功能与LSTM的忘记forget门非常相似但位置稍有不同。他们总是发出它们完整的状态因为他们没有输出门。在大多数情况下它们的功能与LSTM非常相似最大的不同之处在于GRUs稍快并且更容易运行但表现力稍差。在实践中这些往往会互相抵消因为你需要一个更大的网络来重新获得一些表示能力这反过来又抵消了性能的优势。在一些情况下GRU可以胜过LSTM。 除了这三大体系结构之外过去几年神经机器翻译系统还有进一步的改进。以下是最显着的发展 · 用神经网络进行序列学习的序列证明了LSTM在神经机器翻译中的有效性。它提出了序列学习的一种通用的端到端方法对序列结构进行了最少的假设。该方法使用多层Long Short Term MemoryLSTM将输入序列映射为固定维度的向量然后使用另一个深度LSTM从向量解码目标序列。 · 通过联合学习对齐和翻译的神经机器翻译引入了NLP中的注意机制将在下一篇文章中介绍。认识到使用固定长度矢量是提高NMT性能的瓶颈作者建议通过允许模型自动软搜索与预测目标相关的源句子部分来扩展而不必将这些部分明确地形成为一个固定的长度。 · 用于神经机器翻译的循环编码器上的卷积利用附加的卷积层增强NMT中的标准RNN编码器以在编码器输出中捕捉更广泛的上下文。 · 谷歌的神经机器翻译它解决了准确性和部署方便性的问题。该模型由一个深度LSTM网络组成该网络包含8个编码器和8个解码器层使用残余连接以及从解码器网络到编码器的注意力连接。 · Facebook AI研究人员不使用递归神经网络而是使用卷积神经网络序列对NMT中的学习任务进行排序。 技巧3Dialogue和Conversations 关于会话AI的文章很多其中大部分着重于垂直聊天机器人商业趋势和创业机会比如Amazon AlexaApple SiriFacebook MGoogle AssistantMicrosoft Cortana。人工智能理解自然语言的能力仍然有限。因此创建全自动的对话助理仍然是一个巨大的挑战。尽管如此下面将要介绍的内容对于想要在对话AI中寻求下一个突破的人们来说是一个很好的起点。 来自蒙特利尔、乔治亚理工学院、微软和Facebook的研究人员构建了一个能够产生上下文敏感的会话响应的神经网络。这种新颖的响应生成系统是在大量的非结构化Twitter对话上进行端对端训练。循环神经网络架构用于解决将上下文信息集成到经典统计模型时出现的稀疏性问题使系统能够考虑以前的对话话语。该模型显示了对上下文敏感和非上下文敏感的机器翻译和信息检索的所有优势。 香港开发的神经反应机器NRM是一种基于神经网络的短文对话生成器。它采用通用的编码器-解码器框架。首先它将响应的生成的形式化为基于输入文本的潜在表示的解码过程而编码和解码都是用递归神经网络实现的。NRM通过从微博服务收集的大量谈话数据进行训练。实验表明NRM可以对超过75的输入文本产生语法正确当反应在同样的环境中表现优于现有技术。 最后Google的神经会话模型是一种简单的会话建模方法它使用序列到序列框架。该模型通过预测对话中前一个句子的下一个句子进行对话。该模型的优势在于它可以进行端对端训练因此需要的手动规则更少。 该模型可以根据一个大型的会话训练数据集生成简单的会话。它能够从领域特定的数据集以及电影字幕、嘈杂的、通用的数据集中提取知识。在特定于域的IT数据集上该模型可以通过对话找到技术问题的解决方案。在嘈杂的开放的电影副本数据集上该模型可以执行简单形式的常识推理。 数十款阿里云产品限时折扣中赶紧点击领劵开始云上实践吧 以上为译文。 本文由北邮爱可可-爱生活老师推荐阿里云云栖社区组织翻译。 文章原标题《the-7-nlp-techniques-that-will-change-how-you-communicate-in-the-future-part-i》 作者james le 译者虎说八道审校。 文章为简译更为详细的内容请查看原文。