当前位置: 首页 > news >正文

网站打开太慢网站开发课程建议

网站打开太慢,网站开发课程建议,网站导航如何做半透明渐变,360任意看地图网站引言 我们都知道谷歌翻译#xff0c;这个网站可以像变魔术一样在100 种不同的人类语言之间进行翻译。它甚至可以在我们的手机和智能手表上使用#xff1a; 谷歌翻译背后的技术被称为机器翻译。它的出现改变了世界交流方式。 事实证明#xff0c;在过去几年中#xff0c;深…引言 我们都知道谷歌翻译这个网站可以像变魔术一样在100 种不同的人类语言之间进行翻译。它甚至可以在我们的手机和智能手表上使用 谷歌翻译背后的技术被称为机器翻译。它的出现改变了世界交流方式。 事实证明在过去几年中深度学习完全改写了传统的机器翻译方法。对语言翻译几乎一无所知的深度学习研究人员正在拼凑相对简单的机器学习解决方案这些解决方案正在击败世界上最好的专家构建的语言翻译系统。 这一突破背后的技术被称为sequence to sequence模型。这是一种非常强大的技术可用于解决多种问题。在我们了解它的工作原理之后我们还将了解如何使用完全相同的算法来编写 AI 聊天机器人和图片描述系统。 让计算机翻译 那么我们如何对计算机编程来翻译人类语言呢 最简单的方法是用目标语言的翻译词替换句子中的每个词。这是一个将西班牙语逐字翻译成英语的简单示例 这很容易实现因为只需要构造一个字典数据结构来查找每个单词的翻译。但是结果很糟糕因为它忽略了语法和上下文。 因此接下来您可能要做的就是开始添加特定于语言的规则以改进结果。例如您可以将常见的双词短语翻译为一个组。你可能会交换名词和形容词的顺序因为它们在西班牙语中的出现顺序通常与它们在英语中的出现顺序相反 成功了如果我们不断添加更多规则直到我们能够处理语法的每一部分我们的程序应该能够翻译任何句子对吧 这就是最早的机器翻译系统的工作方式。语言学家想出了复杂的规则并将它们一一编入程序。 不幸的是这只适用于像天气预报这种简单、结构清晰的语言。当面对真实世界的语言时它就变得不再可靠。 因为人类语言并不遵循一套固定的规则。人类语言充满了特殊情况、区域差异并且完全违反规则。例如西方国家说英语的方式更多地受到数百年前入侵者的影响而不是坐下来定义语法规则的人。 应用统计方法让计算机翻译得更好 在基于规则的系统失败后使用基于概率和统计的模型而不是语法规则开发了新的翻译方法。 构建基于统计的翻译系统需要大量训练数据其中将完全相同的文本翻译成至少两种语言。这种双重翻译的文本称为平行语料库。就像 1800 年代科学家使用罗塞塔石碑从希腊语中找出埃及象形文字一样计算机可以使用平行语料库来猜测如何将文本从一种语言转换为另一种语言。 幸运的是在很多奇怪地方已经有很多双重翻译的文本。例如欧洲议会将议事录翻译成 21 种语言。因此研究人员经常使用这些数据来帮助构建翻译系统。 概率思维 这种方式不会只生成一种精确的翻译。相反他们会生成数千种可能的翻译然后根据每个翻译的正确可能性对这些翻译进行排名。并通过它与训练数据的相似程度来估计它有多“正确”。它是这样工作的 第 1 步将原始句子分成块 首先我们将句子分解成简单的块每个块都可以轻松翻译 第 2 步为每个块找到所有可能的翻译 接下来我们将通过查找人类在我们的训练数据中翻译这些相同词块的所有方式来翻译这些词块中的每一个。 重要的是要注意我们不仅仅是在简单的翻译词典中查找这些块。相反我们正在看到真实的人如何在现实世界的句子中翻译这些相同的词块。这有助于我们了解它们在不同情况下的所有不同使用方式 其中一些可能的翻译比其他翻译更频繁地使用。根据每个翻译在我们的训练数据中出现的频率我们可以给它打分。 例如某人说“Quiero”的意思是“我想要”比意思是“我尝试”要常见得多。因此我们可以使用训练数据中“Quiero”被翻译成“I want”的频率来赋予该翻译比频率较低的翻译更高的权重。 第 3 步生成所有可能的句子并找到最有可能的句子 接下来我们将使用这些块的每一种可能组合来生成一堆可能的句子。 仅从我们在步骤 2 中列出的块翻译我们已经可以通过以不同方式组合块来生成近 2,500 种不同的句子变体。这里有些例子 但在现实世界的系统中会有更多可能的组块组合因为我们还将尝试不同的单词顺序和不同的句子组块方式 现在需要扫描所有这些生成的句子以找到听起来“最合理”的句子。 为此我们将每个生成的句子与数以百万计的英文书籍和新闻故事中的真实句子进行比较。我们能得到的英文文本越多越好。 一种可能的翻译是 I try | to leave | per | the most lovely | open space. 但是没有人用英语写过这样的句子它与我们数据集中的任何句子都不会非常相似。因此会给这个可能的翻译一个低概率分数。 再看看这个可能的翻译 I want | to go | to | the prettiest | beach. 这句话会和我们训练集中的某个句子相似所以它会得到很高的概率分数。 在尝试了所有可能的句子之后我们将选择具有最可能的块翻译的句子同时也与真实的英语句子总体上最相似。 我们的最终翻译是“I want to go to the prettiest beach”。不错 统计机器翻译是一个巨大的里程碑 如果您为统计机器翻译系统提供足够的训练数据它们的性能要比基于规则的系统好得多。Franz Josef Och 改进了这些想法并在 2000 年代初期使用它们构建了 Google 翻译。机器翻译终于面世了。 在早期每个人都惊讶于基于概率的“愚蠢”翻译方法比语言学家设计的基于规则的系统效果更好。这导致了 80 年代研究人员之间的一个有点刻薄的说法 每次我解雇一名语言学家我的准确性都会提高。 统计机器翻译的局限性 统计机器翻译系统运行良好但构建和维护起来很复杂。您要翻译的每一对新语言都需要专家调整和调整新的多步骤翻译管道。 由于构建这些不同的管道需要大量工作因此必须做出权衡。如果你要求谷歌将格鲁吉亚语翻译成泰莱古语它必须在内部将其翻译成英语作为中间步骤因为没有足够多的格鲁吉亚语到泰莱古语的翻译来证明在该语言对上投入大量资金是合理的。与您要求更常见的法语到英语选择相比它可能会使用不太先进的翻译管道进行翻译。 如果我们可以让计算机为我们完成所有烦人的开发工作那不是很酷吗 让计算机翻译得更好——没有那些昂贵的人 机器翻译的圣杯是一个黑匣子系统它可以自己学习如何翻译——仅仅通过查看训练数据。使用统计机器翻译仍然需要人工来构建和调整多步骤统计模型。 2014年KyungHyun Cho的团队取得了突破。他们找到了一种应用深度学习来构建这个黑匣子系统的方法。他们的深度学习模型采用平行语料库并使用它来学习如何在没有任何人工干预的情况下在这两种语言之间进行翻译。 两个伟大的想法使这成为可能——递归神经网络和编码。通过巧妙地结合这两种思想我们可以构建一个自学习翻译系统。 循环神经网络 常规非循环神经网络是一种通用机器学习算法它接受数字列表并计算结果基于先前的训练。神经网络可以用作解决许多问题的黑匣子。例如我们可以使用神经网络根据房屋的属性计算房屋的近似值 但与大多数机器学习算法一样神经网络是无状态的。您传入一个数字列表然后神经网络计算出一个结果。如果您再次传入相同的数字它将始终计算出相同的结果。它没有过去计算的记忆。换句话说2 2 总是等于 4。 循环神经网络或简称 RNN是神经网络的略微调整版本其中神经网络的先前状态是下一次计算的输入之一。这意味着以前的计算改变了以后计算的结果 我们到底为什么要这样做无论我们上次计算什么2 2 不应该总是等于 4 吗 这个技巧允许神经网络学习一系列数据中的模式。例如您可以使用它根据前几个词预测句子中下一个最有可能的词 每当您想学习数据模式时RNN 都非常有用。由于人类语言只是一种庞大而复杂的模式因此 RNN 越来越多地用于自然语言处理的许多领域。 编码 我们需要审查的另一个想法是编码。我们之前讨论了作为人脸识别一部分的编码。为了解释编码让我们稍微绕一下我们如何用计算机区分两个不同的人。 当你试图用计算机区分两张脸时你会从每张脸上收集不同的测量值并使用这些测量值来比较面孔。例如我们可能会测量每只耳朵的大小或两只眼睛之间的间距然后比较两张照片中的这些测量值看看他们是否是同一个人。 将一张脸变成一个测量列表的想法是编码的一个例子。我们正在获取原始数据一张人脸图片并将其转换为表示它的测量值列表编码。 但是我们不必拿出一个特定的面部特征列表来衡量自己。相反我们可以使用神经网络从面部生成测量值。在确定哪些测量最能区分两个相似的人方面计算机可以比我们做得更好 这是我们的编码。它让我们用简单的东西128 个数字来表示非常复杂的东西一张脸的图片。现在比较两张不同的脸要容易得多因为我们只需要比较每张脸的这 128 个数字而不是比较完整的图像。 你猜怎么了我们可以用句子做同样的事情我们可以想出一种编码将每个可能的不同句子表示为一系列唯一的数字 为了生成这种编码我们会将句子输入 RNN一次输入一个单词。处理完最后一个单词后的最终结果将是代表整个句子的值 太好了现在我们有办法将整个句子表示为一组唯一的数字我们不知道编码中每个数字的含义但这并不重要。只要每个句子都由它自己的一组数字唯一标识我们就不需要确切地知道这些数字是如何生成的。 让我们翻译吧 好的所以我们知道如何使用 RNN 将一个句子编码成一组唯一的数字。这对我们有什么帮助这就是事情变得非常酷的地方 如果我们采用两个 RNN 并将它们端到端连接起来会怎样第一个 RNN 可以生成表示句子的编码。然后第二个 RNN 可以采用该编码并反向执行相同的逻辑以再次解码原始句子 当然能够对原始句子进行编码然后再次解码并不是很有用。但是如果这是个好主意我们可以训练第二个 RNN 将句子解码为西班牙语而不是英语怎么办我们可以使用我们的平行语料库训练数据来训练它来做到这一点 就像那样我们有一种通用的方法可以将一系列英语单词转换为等效的西班牙语单词序列 这是一个强大的想法 这种方法主要受限于你拥有的训练数据量和你可以投入的计算机能力。机器学习研究人员两年前才发明这个但它的性能已经和耗时 20 年开发的统计机器翻译系统一样好。 这并不取决于了解有关人类语言的任何规则。该算法自己计算出这些规则。这意味着您不需要专家来调整翻译流程的每一步。计算机会为你做这些。 这种方法几乎适用于任何类型的序列到序列问题事实证明许多有趣的问题都是序列到序列的问题。继续阅读您可以做的其他很酷的事情 请注意我们忽略了使这项工作与实际数据一起工作所需的一些事情。例如您需要做一些额外的工作来处理不同长度的输入和输出句子请参阅分桶和填充。正确翻译生僻词也存在问题。 构建您自己的序列到序列翻译系统 如果您想构建自己的语言翻译系统TensorFlow 中包含一个可在英语和法语之间进行翻译的工作演示。但是这不适合胆小者或预算有限的人。这项技术仍然很新而且非常耗费资源。即使你有一台配备高端显卡的快速计算机也可能需要大约一个月的连续处理时间来训练你自己的语言翻译系统。 此外序列到序列的语言翻译技术进步如此之快以至于很难跟上。最近的许多改进如添加注意力机制或跟踪上下文正在显着改善结果但这些发展太新了甚至还没有维基百科页面。如果你想对序列到序列学习做任何严肃的事情你需要跟上新的发展。 序列到序列模型的荒谬力量 那么我们还能用序列到序列模型做些什么呢 大约一年前谷歌的研究人员表明您可以使用序列到序列模型来构建人工智能机器人。这个想法是如此简单以至于令人惊讶的是它的工作原理。 首先他们获取了谷歌员工和谷歌技术支持团队之间的聊天记录。然后他们训练了一个序列到序列模型其中员工的问题是输入句子技术支持团队的回答是该句子的“翻译”。 当用户与机器人交互时他们将使用该系统“翻译”用户的每条消息以获得机器人的响应。 最终结果是一个可以有时回答真正的技术支持问题的半智能机器人。这是他们论文中用户和机器人之间的示例对话的一部分 他们还尝试构建一个基于数百万电影字幕的聊天机器人。这个想法是利用电影角色之间的对话来训练机器人像人一样说话。输入的句子是一个字符说的一行对话“翻译”是下一个字符的回应 这产生了非常有趣的结果。机器人不仅像人一样交谈而且还显示出一点点智慧 这只是可能性的开始。我们不仅限于将一个句子转换为另一个句子。也可以制作一个可以将图像转换为文本的图像到序列模型 Google 的另一个团队通过用卷积神经网络替换第一个 RNN 来做到这一点就像我们在第 3 部分中了解到的那样。这允许输入是图片而不是句子。其余的工作方式基本相同 就这样我们可以把图片变成文字只要我们有很多很多的训练数据 Andrej Karpathy 扩展了这些想法构建了一个能够通过分别处理图像的多个区域来非常详细地描述图像的系统 这使得构建图像搜索引擎成为可能这些引擎能够找到与奇怪的特定搜索查询匹配的图像 甚至还有研究人员在研究相反的问题即根据文本描述生成整张图片 仅从这些示例中您就可以开始想象各种可能性。到目前为止从语音识别到计算机视觉的方方面面都有序列到序列的应用。我敢打赌明年会有更多。
http://www.huolong8.cn/news/13571/

相关文章:

  • 许昌市建设局网站聊城做企业网站
  • 织梦企业门户网站wordpress超好看主题
  • 网站的网站建设公司做网站什么职业
  • 威海住房和城乡建设局官方网站永久不收费免费的软件app
  • 南京做网站的公司有哪些建设网站需要多长时间
  • 广州网站关键词排名深圳网站建设hi0755
  • 跨境电商网站开发做视频网站要什么
  • 网站建设规划书网页制作怎么建站点
  • 西安地产网站建设哈尔滨刚刚发生的大事件
  • 南京网站建设 个人ssc网站建设教程
  • 网站添加谷歌地图如何在微信公众号中导入wordpress
  • 青岛设计网站的公司哪家好一键配置wordpress
  • 专门为98k做的网站品牌企业建站
  • 网站 会员管理国际快递网站建设
  • 怎样做交互式网站狠狠做网站改成什么了
  • 做视频哪个网站素材好电脑做网站用什么软件
  • 如何用cms做网站wordpress音频播放器插件
  • .net是建网站的吗建设自动弹出qq对话框的网站
  • 织梦wap网站模版网站建设商家公司
  • 网站开发技术架构万站群cms
  • 做的好点的外贸网站上海公司网页设计
  • 深圳宝安大型网站建设一诺互联 网站建设
  • 怎么做提取微信62的网站网页源代码是什么
  • 网站类别标签文本赣州行业网站建设
  • 做网站接口多少钱扬州恒通建设网站
  • 做网站图片多大网站建设要学
  • 佛山网站设计建设做设计及免费素材网站有哪些
  • 河北省和城乡建设厅网站首页手机百度如何发布广告
  • 网站创建的基本流程创业项目的网站
  • 怎么建立一个网站当站长更新wordpress需要ftp