当前位置: 首页 > news >正文

福州网站建设嘉艺个人专属logo设计

福州网站建设嘉艺,个人专属logo设计,宜昌恒大帝景地址,网站建设公司华网天下买赠两年建设公司来源#xff1a; AI科技评论 编辑 | Camel四大边界#xff1a;数据边界、语义边界、符号边界和因果边界当前#xff0c;深度学习之于自然语言处理#xff0c;有其局限性。那么它所能起作用的边界在哪里呢#xff1f;对此问题#xff0c;我们应当深思。近日#xff0c;在… 来源 AI科技评论 编辑 | Camel四大边界数据边界、语义边界、符号边界和因果边界当前深度学习之于自然语言处理有其局限性。那么它所能起作用的边界在哪里呢对此问题我们应当深思。近日在北京语言大学举办的第四届语言与智能高峰论坛上华为诺亚方舟实验室语音语义首席科学家刘群教授高屋建瓴细致分析了深度学习时代NLP的已知与未知。他从自然语言处理基于规则、统计到深度学习的范式迁移出发探讨了深度学习方法解决了自然语言处理的哪些问题以及尚未解决哪些问题。刘群教授认为尚未解决的这些问题最终是由深度学习的四大边界——数据边界、语义边界、符号边界和因果边界所共同造成的。要想在这些尚未解决的问题上寻找突破需要从深度学习的这些边界出发去探索新的解决方案。这个报告主题为《基于深度学习的自然语言处理边界在哪里》。可谓是站在NLP塔尖上对整个领域的复盘。我们一起来欣赏~报告正文感谢大会给我这个机会来这里跟大家进行一次交流。今天我不讲我的具体工作而是讲我多年来研究机器翻译、自然语言处理的一些体会和感想从更加抽象的层面讨论一些问题这些想法不一定成熟如有不恰当的地方希望大家指正  自然语言处理的范式迁移从规则、统计到深度学习相信大家对自然语言处理的范式迁移都深有体会。以机器翻译为例很多年前大家都是采用基于规则的方法基本思想是依靠人来写规则并教机器如何去翻译。后来大家也慢慢发现这条路走不通因为人不可能将所有的规则都写穷尽并且也写不出大量太细的规则。因此大家之后就转向了基于统计的机器翻译方法即给机器一堆语料让机器自己去学习翻译规则不过它学到的还是一些符号层面的规则但被赋予了概率。到一定程度后统计机器翻译就遇到了一些瓶颈也很难再度提高。随着这几年来深度学习方法的引入机器翻译的水平又有了一个大幅提高使得机器不再在符号层面做翻译而是将整个推理过程映射到一个高维空间中并在高维空间中进行运算。不过我们只能理解输入输出而不知道其在高维空间中具体如何进行运算的并且机器自动学习了什么东西我们也说不太清楚。下面我试图来探讨几个问题一是深度学习解决了自然语言处理的哪些问题二是还有哪些自然语言处理问题是深度学习尚未解决的三是基于深度学习的自然语言处理其边界在哪里  深度学习解决了自然语言处理的哪些问题自然语言处理领域有很多难题此前研究者费了好大劲去解决的问题深度学习方法出现以后一些问题被很好地解决了或者虽然还没有彻底解决但是提供一个很好的框架。这些问题主要包括词语形态问题、句法结构问题、多语言问题、联合训练问题、领域迁移问题以及在线学习问题。这里我主要讲下前四个问题不对后两个问题进行展开。词语形态问题词语形态问题即 Morphology研究的是词的构成。在中文中它体现在词的切分上在英语等大部分其他语言中则主要体现在形态的分析上。其中词语切分在包括机器翻译在内的中文信息处理中曾是一个非常令人头痛的问题我们也花了很多精力去解决。在基于规则和基于统计的机器翻译方法下词语形态分析是机器翻译首先需要解决的问题。对于中文而言由于基于汉字的翻译效果很差因而分词是必须解决的问题也就是说如果不做分词或分词做得不好即便用统计方法效果也会很糟糕。然而分词本身又面临很多问题因为中文词语本来就不是一个定义很明确的单位导致分词缺乏统一的规范分词粒度难以把握。而中文以外的很多语言都存在形态问题其中英文的形态问题比较简单因为英语词的变化比较少。而很多其他语言的变化是很多的例如法语有四五十种变化俄语则更多。另外以土耳其和波斯语为例的黏着语一个词可能有上千种变化即一个词后面可以加很多种词缀这对于自然语言处理尤其是机器翻译而言是非常棘手的。 而且对于这些形态丰富的语言而言分析的难度也很大一般只有语言学家才能把词语的形态说得比较清楚。同时形态本身其实是一层结构所有统计机器翻译都建立在某种结构的基础上例如词语层、短语层、句法层或者说基于词的、基于短语、基于句法的方法那如果想在这些结构中再加入一层形态结构统计机器翻译的建模就会变得非常困难。在统计机器翻译时代复杂形态的语言处理非常困难对此有一个比较著名的方法叫做 Factored statistical machine translation即基于要素的翻译方法就是将一个词分成很多要素然后分别翻译每个要素最后汇总起来。不过我很不喜欢这个方法因为我认为它不够优雅且非常冗余效果也不是很好。然而语言形态这个问题在神经网络框架下就基本不成问题了这个领域的研究者对中文分词的讨论也不太多了虽然也有一些关于如何在神经网络框架下将词分得更好的探索我也看到过几篇挺有意思的相关文章但是对于机器翻译而言中文分词已经构不成根本性挑战了因为现在机器翻译基本上可以不做分词了大部分中文机器翻译系统基本上基于汉字来实现性能跟基于词的系统比没有太大区别。针对形态复杂的语言现在提出了一种基于subword子词的模型或基于character字符的机器翻译模型效果也非常好。我认为这是一个统一且优雅的方案。 自动化所张家俊老师他们的一篇论文就介绍了基于子词的模型方案的解决思路如下图所示第一行是标准的中文第二行是做了分词以后的。现在一般系统基于汉字即可就是第三行但是我们也可以做分词比如第五行做BPE将“繁花似锦”分成“繁花”、“似”、“锦”这三个子词部分。基于字符的模型则是从字母的层面来做对英文一个字母一个字母地建模和翻译翻译效果也非常好。所以我认为在神经网络框架下形态问题基本上不是什么太大的问题。 句法结构问题下面看句法结构问题。无论是在基于规则还是基于统计的机器翻译框架下句法分析对机器翻译的质量都起着重要的影响作用。其中在基于统计的机器翻译中基于短语的方法获得了很大成功因此现在大部分统计方法都不做句法分析。但是对于中英文这种语法结构相差较大的语言而言做句法分析要比不做句法分析的结果好很多所以句法分析还是很重要的。不过句法分析难度很大一方面会带来模型复杂度的增加另一方面句法分析本身存在的错误会影响翻译的性能。而目前在神经网络机器翻译框架下神经网络可以很好地捕捉句子的结构无需进行句法分析系统可以自动获得处理复杂结构句子翻译的能力。大概 2005 年至 2015 年期间我一直在做基于统计的机器翻译也就是研究如何在统计方法中加入句法方法在这么多年的研究中我们提出了很多种方法也写了很多篇论文下图中的这些模型概括了我们之前提出的那些方法。我们的工作主要聚焦于树到树、树到串的方法。美国和欧洲很多学者在做串到树的方法树到树的方法做得都比较少。另外我们还做了一些森林方法的研究即如何避免句法分析错误。不过这些问题在神经网络框架下基本上也不存在了。举例来说“第二家加拿大公司因被发现害虫而被从向中国运输油菜籽的名单中除名”是一个好几层的嵌套结构但是机器翻译的结果“The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests”在结构上翻译得很好。下面一个例子在结构上也没有什么错误。神经网络机器翻译方法是没有用到任何句法知识的仅凭从网络中学到的复杂结构就能实现这么好的效果这样的话对机器翻译来说做句法分析就没有太大意义了。当然句法结构并不是完全没有意义现在也有不少人在研究但是我认为这已经不再是机器翻译的一个主要难点了。多语言问题 曾经我们机器翻译研究者的一个理想就是在基于规则的时代实现多语言翻译。当时很多人都在做多语言翻译甚至是中间语言翻译如下图中间语言翻译其实是一个理想的方案因为多语言的互相翻译通过某个中间语言来实现是能够节省很多成本的如果使用中间语言开发系统的数量随翻译语言的数量呈线性增长否则开发系统的数量随翻译语言的数量呈平方增长。但在基于规则方法的机器翻译时代中间语言的方法是不可行的正如日本机器翻译专家 Makoto Nagao 教授曾经说过的一句话当我们使用中间语言的时候分析阶段的输出结果必须采用这样一种形式这种形式能够被所有不同语言的机器翻译所使用。然而这种细微程度实际上是不可能做到的。 在基于统计方法的机器翻译时代普遍采用的是 Pivot 方法即在两个语言的互译中先将所有语言翻译成英语再翻译成另一种语言。这样的话就能够使得多语言机器翻译成为可能。但是这种方法也存在一些问题即会导致错误传播和性能下降。另一方面我们做多语言翻译的另一个想法是希望能够利用多语言之间互相增强的特点即很多语言有相似的特点因而如果无法利用上这种增强的话这种方法就并非那么理想了。在神经网络机器翻译时代谷歌就直接利用中间语言的方法做出了一个完整且庞大的系统将所有语言都放在一起互相翻译以及将所有文字都放在一起编码。虽然这个系统目前还不是很完美但是距离理想的 Interlingua 已经很接近了。之后,谷歌又推出了Multilingual BERT将104种语言全部编码到一个模型里面这在原来是不可想象的。 虽然这两个方法现在还无法彻底解决多语言问题但是它们整个框架非常漂亮效果也非常好所以我觉得针对这两个方面我们还有很多事情可以做。联合训练问题在统计机器翻译时代因为各模块都是互相独立训练的导致错误传播的问题很严重所以联合训练也成为了提高性能的有效手段。但联合训练本身又会导致模型复杂度的大大增加使得开发和维护变得困难。同时由于搜索范围急剧扩大系统开销也严重增加。不仅如此由于模块太多只能有限的模块进行联合训练所以不可能将所有模块都纳入联合训练。而在神经网络机器翻译框架下端到端训练成为标准模式所有模块构成一个有机的整体针对同一个目标函数同时训练有效避免了错误传播提高了系统性能。  还有哪些自然语言处理问题深度学习尚未解决 由于深度学习的应用我们以前费很大劲去做的一些事情现在基本上不需要再去做了。但是深度学习本身还是存在很多问题的包括资源稀缺问题、可解释性问题、可信任问题、可控制性问题、超长文本问题以及缺乏常识问题等等。资源稀缺问题 资源稀缺问题大家都很清楚然而这个问题远比我们大部分人想象的要严重得多。一般而言对于常见语言机器翻译可以做得很好然而现实世界中有几千种语言曾经就有一篇报告统计出 7000 多种语言当然有文字的语言并没有这么多其中绝大部分语言都是资源稀缺语言并且绝大多数专业领域实际上也都是资源稀缺的领域。 以下面针对医疗领域的 WMT 2019 评测为例它的语料库包括 3000多个文档、4 万多个句子。在机器翻译领域几百万个句子的语料已经是小数量的了商业系统基本上都有好几千万句子的训练语料。然而这里才4万多个句子是存在严重资源稀缺问题的翻译的质量也非常糟糕基本上是不可接受的。另外从数据上来看西班牙语有10万多个法语有7万多个中文没有也就是说基本收集不到中文医疗领域的翻译数据。在工业界想要解决的大部分问题都是没有标注语料的需要自己去标然而也基本上没有那么多钱去对很多的语料做标注。所以资源稀缺问题要比我们想象的严重得多。资源稀缺对神经网络机器翻译的影响很大。从下图来看上面两条线指基于统计的机器翻译方法下面这条线指神经网络机器翻译方法我们可以看到神经网络的方法只有在语料很多的情况下表现才能超过统计方法在语料不够大时表现并不比统计方法更好。可解释性问题和可信任问题我们给神经网络输入一个东西它就会输出一个结果然而其在高维空间的计算过程我们是不知道的这就存在可解释问题。但我认为这个问题的严重性要视情况而定我们有时候需要解释性却并不是所有时候都需要解释性比如人脑做决定有时间可能只是灵机一动的灵感至于怎么来的人自己都不一定能够解释得清楚。而可解释性带来的一个更重要的问题是可信任问题。一些关键性领域如医疗领域比如说病人看病如果系统给出一个癌症的诊断而无法给出理由的话病人是不敢治疗的。所以在这些关键性的应用上可解释性是非常重要的因为这个问题会导致信任问题。机器翻译中的一个可信任问题是翻译错误。比如说重要的人名、地名和机构名是不应该翻错的以翻译美国政府的一个工作报告为例如果使用之前的语料来训练机器就会直接将美国总统特朗普翻译成布什总统了这就是一个很严重的错误了。 第二个可信任问题是翻译出来的意思与原意相反这在机器翻译中也很常见且较难避免因为这种意思相反的表达在语料库中的统计特征是非常接近的都是在陈述同一件事情因此在机器翻译中很容易导致翻译出与原意相反的结果。第三个可信任问题则是机器翻译犯一些过于幼稚的、完全不该犯的问题这就会直接给人带来不信任感。可控制性问题由于系统有时候的效果总不能令人满意或总出现错误所以我们希望系统变得可控即知道怎么对其进行修改从而避免犯这种错误。基于规则的机器翻译方法中我们是可以通过修改规则来纠正基于统计的机器翻译方法虽然改的方式绕一点但是统计的数据都是可解释的我们可以在其中加上一个短语表来纠正而在神经网络机器学习方法中我们几乎是不能进行修改的。比如对于重要的人名、地名、机构名、术语我们希望机器严格按照给定的方式进行翻译不能随便乱翻。我之前在爱尔兰的时候带学生做过这方面的比较早期的工作目前的引用量还比较高现在我们对这项工作进行了一些改进可以比较好地解决机器翻译的可控制性问题但是这项工作还仅适用于机器翻译这一特例而无法做到通用化去解决神经网络在整个自然语言处理领域存在的可控制性问题。超长文本问题现在的神经网络机器翻译在处理长文本方法取得了很大的进步。早期的神经网络翻译系统常被人诟病短句子翻译得好但长句子却翻译得很糟糕。而现在这种情况已经得到了非常大的改善一般的长句都翻译得不错但漏翻等小错误还是不可避免。现在基于长文本训练的语言模型如BERT、GPT其训练的文本单位一般都是几百字到上千字所以长度在这个范围内的文本处理没有太大问题并且 GPT生成一千字以内的文本都可以生成得非常流畅。目前机器翻译能够处理比较长的文本但是不能说长文本问题就解决了它本身还存在很多挑战一个是基于篇章的机器翻译问题不光是我们学术界还有很多同行都在研究这个问题。基于篇章的机器翻译实验证明对改进翻译质量起作用的上下文只有前1-3个句子更长的上下文反倒会降低当前句子的翻译质量。按理来说上下文更长机器翻译的效果应该是更好的那为什么反而翻译得更差呢这是不合理的。另一个是预训练语言模型问题。现在机器翻译的训练长度一般是几百字到上千字然而实际处理的文本可能不止一千字比如说一篇八页的英文论文起码都两三千字了。因此预训练语言模型在实际处理更长文本的时候还是会遇到很多问题这种情况下语言模型消耗计算资源巨大计算所需时空消耗会随着句子长度呈平方或者三次方增长所以现有模型要想支持更长的文本还有很多问题尚待解决。缺乏常识问题这里我以不久前去世的董振东先生提供的例子为例如下图所示“bank”是翻译中一个经典的歧义词有“银行”和“岸”的意思在什么语境下翻译成哪个意思对于人来说很容易理解但是即使有 fishing、water这样的相关提示词存在谷歌翻译器还是将这个词翻译成了“银行”。在神经网络机器翻译时代这种常识性错误依旧比较普遍存在。另外一个例子就是 GPT 的文本生成。GPT 在文本生成方面已经做得很好了然而即便如此还是会犯很多常识性的错误。以下面这个经典案例为例前面人类输入的句子是“在一项研究中科学家们发现了一群独角兽它们生活在安第斯山脉一个偏远的还没被开发山谷中更令人惊讶的是这些独角兽会说一口流利的英语”其中“独角兽会说一口流利的英语”在现实生活中是荒唐、完全不可能的事。然而GPT系统就根据这一句话生成了一个故事。 故事写得很漂亮但是存在错误比如第一句就是错误的“科学家根据它们独特的角将它们命名为Ovid’s Unicorn这些有着银色的四个角的独角兽是原来科学家所不曾见过的”这句话本身就矛盾独角兽怎么会有四个角呢这是很明显的一个逻辑错误。所以常识问题在机器翻译中依旧是一个非常严重的问题。  基于深度学习的自然语言处理其边界在哪里 那自然语言处理中哪些问题是可以解决的哪些是不可以解决的呢这就涉及到它的边界问题。我认为深度学习有几个重要的边界数据边界、语义边界、符号边界和因果边界。数据边界数据边界是限制当前机器翻译技术发展的约束之一这个比较好理解就是指数据不够这是现有方法无法解决的。语义边界人工智能在很多领域都大获成功其中在围棋、电子竞技等项目上获得的成功最大包括早期还没有深度学习乃至统计方法时在 Winograd 系统上就很成功了为什么会取得这么大的成功我认为这是因为这些领域能够对客观世界的问题进行精确建模因此能做得很好而现在自然语言处理系统大部分都无法对客观世界进行精确建模所以很难做好。另外比如像智能音箱、语音助手系统能够取得一定成果很大程度上也是因为这些系统对应着明确定义的任务能对物理世界建模不过一旦用户的问话超出这些预定义的任务系统就很容易出错。 机器翻译的成功是一个比较特殊的例子这是因为它的源语言和目标原因的语义都是精确对应的所以它只要有足够的数据而并不需要其他的支撑就能取得较好的效果。 现在的自然语言处理系统大部分还只是流于对词语符号之间的关系建模没 有对所描述的问题语义进行建模即对客观世界建模。而人理解语言的时候脑子里一定会形成一个客观世界的影像并在理解影像后再用自己的语言去描述自己想说的事情。  实际上自然语言处理的理想状态应该是能够对客观世界进行描述并建模然而对客观世界建模相当复杂实现并不容易。以颜色这个属性为例可以用三个 8 位数进行建模可以组合出数千万种颜色但刻画颜色的词语只有数十个词语和颜色模型的对应关系很难准确地进行描述。 在机器翻译的研究中对客观世界建模并不新鲜早期的本体或者知识图谱、语义网络都是人类专家试图对客观世界建立通用性模型的一种长期努力其中一项集大成的成果便是知识图谱但是它目前还没有办法很好地应用到深度学习中来。不过我认为这是一个很值得探索的方向。总而言之我认为自然语言处理的一个理想的改进方向就是做世界模型或语义模型换句话说就是不仅仅只做文本间的处理还必须落地到现实世界中去对现实世界建模而知识图谱这是其中一个较为值得探索的具体方向。符号边界心理学家将人的心理活动分为潜意识和意识用我的话来理解就是可以用语言描述的心理活动称作意识而无法用语言描述的心理活动称为潜意识。神经网络实际上则是潜意识的行为可以输入语言和输出语言表达但是无法对整个推理和计算过程进行描述这本身就是它的一个重要缺陷。 举一个简单的例子使用有限状态自动机可以精确地定义一些特定的表示形式如数词、年份、网址等等但再好的神经网络也很难准确地学习到有限状态自动机的表达能力这是很多实用的自然语言处理系统仍然离不开符号这种规则方法的原因。因果边界 人类对客观世界中发生的事情中的因果关系都有明确的理解。所以很容易去芜存真抓住问题的本质。神经网络无法做到这一点它根据数据学习到的东西去做出判断而并没有理解真正的因果关系即并不知道哪些因素是事情发生的真正原因哪些是辅助性的判断依据因而很容易做出错误的判断 。实际上仅仅根据统计数据进行推断很难得到真正的因果关系。真正的因果关系只有通过精心设计的实验才能得出例如药物的有效性美国、中国药物局都需要花上几十年的时间做实验最终才能确定出一个因果关系相当不容易。今天我讲了基于深度学习的自然语言处理依旧面临的几个问题而我认为这些问题最终是由我前面提到的四个边界造成的并且不是由边界中的某一个造成而是由多个边界的共同干扰所造成的。对此我用一个关系图来描述这种对应关系如下图所示。 附问答部分听众提问在统计机器翻译时代有分词分析、句法分析以及语义分析等共性任务那在神经网络机器翻译时代是否也有这样一些共性任务呢刘群显然是有的。一个是预训练语言模型它实际上就是在将语言当成一个共性任务来处理其之所以现在取得这么大的成功我认为某种程度上就是因为这种共性任务的处理方式。第二个是知识图谱它其实也是一种共性任务这个领域的研究者做了这么多年的研究我认为是非常有意义的所以我们现在也在想办法将知识图谱和自然语言处理结合起来做研究。另外在手机助手、音箱等语音对话系统中也能够体现这种共性任务比如说系统中的多个技能包括控制家电、播放音乐等如果进行单个处理的话各项技能之间会“打架”因此就需要将这些问题进行共性任务处理这样的话就会变得非常复杂所以对话系统在这种共性任务上的研究是比较值得探索的。感谢刘群教授对本文内容的审阅和校对。《崛起的超级智能》一书主要阐述当今天人类为人工智能的春天到来而兴奋为人工智能是否超越人类而恐慌的时候一个更为庞大、远超人类预期的智能形态正在崛起种种迹象表明50年来互联网正在从网状结构进化成为类脑模型数十亿人类智慧与数百亿机器智能通过互联网大脑结构正在形成自然界前所未有的超级智能形式。这个新的超级智能的崛起正在对人类的科技产业、经济军事国家竞争产生重要而深远的影响。作者刘锋   推荐专家张亚勤、刘慈欣、周鸿祎、王飞跃、约翰、翰兹未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.huolong8.cn/news/28361/

相关文章:

  • 网站页面改版龙岗做网站公司哪家好
  • 个人网站建设怎么样网站footer模板
  • 网站建设建网站年轻的母亲通用网站模板
  • 营销型网站建设题库做那个网站比较好
  • 大型旅行社自建网站网站推广网络营销
  • 免费网站建设排名十大免费下载软件
  • 生鲜市场型网站开发如何免费建设公司网站
  • 怎么制作弹幕网站wordpress 工作流
  • 滑县网站建设哪家专业北京哪里做网站好
  • 腾讯网站建设公司wordpress主题接口
  • 换服务器后网站首页不收录仿门户网站多功能js相册画廊源码
  • 广西网站开发软件天堂 在线地址8
  • 做外墙资料的网站网站建设公司权威机构
  • 设计非常漂亮的网站win10优化大师是官方的吗
  • 中小型网站建设效果电商网站开发的背景及意义
  • 长沙大型做网站公司企业推广文案范文
  • 网站建设终稿确认书wordpress好用插件
  • 电子商务网站业务流程分析wordpress文章 页面
  • 打开网站notfound国内电商企业有哪些
  • 网站建设指南视频教程河北省建设机械协会是正规网站吗
  • 什么网站可以做论坛app网络推广网站建设软件定制
  • 泰州模板建站哪家好网站建设买阿里云云服务器
  • 北京建网站软件河南锦路路桥建设有限公司网站
  • 网站建设公司网站模版郑州专业网站推广公司
  • wordpress托管建站网站服务器做缓存
  • 本溪化工建设质量监督站网站长春网页制作公司
  • 创新的企业网站建设上海网络整合推广
  • dz做分类网站河北沧州泊头做网站的电话
  • 网站运营专员四川省的建设厅注册中心网站首页
  • 珠海横琴天聚建设工程有限公司网站自建国际网站做电商