建湖哪家专业做网站,福田区建设局网站,h5制作成品,公司网站建立的建议来源#xff1a;全球人工智能概要#xff1a;像大脑一样#xff0c;深度神经网络也有很多层神经元。当神经元被激活时#xff0c;它会发出信号#xff0c;连接上面一层的神经元。如今「深度神经网络」已经学会对话、驾驶汽车、打视频游戏、玩围棋、绘画并辅助科研#xf… 来源全球人工智能概要像大脑一样深度神经网络也有很多层神经元。当神经元被激活时它会发出信号连接上面一层的神经元。如今「深度神经网络」已经学会对话、驾驶汽车、打视频游戏、玩围棋、绘画并辅助科研这使其人类构建者很是困惑并为深度学习算法的成果深感意外。这些学习系统的设计并没有一条明确的原则除了来自大脑神经元的灵感其实并没有人知道大脑是如何工作的并且 DNN 早就和大脑神经元的原理相去甚远。像大脑一样深度神经网络也有很多层神经元。当神经元被激活时它会发出信号连接上面一层的神经元。在深度学习的过程中网络中的连接会根据需要被加强或减弱从而让网络更好地根据输入例如一张狗的照片的像素发送信号信号层层向上经过所有相关的神经元这些神经元都与“狗”这个概念的高层抽象有关。一个深度神经网络在“学习”过数以千计的狗的照片后能像人一样准确地识别出从未见过的照片中的狗。从具体个例到通用概念的飞跃让深度神经网络拥有了如同人类在推理、创作时所展现出的“智能”。专业人员想知道是什么赋予了神经网络泛化的能力也想知道人类的大脑在多大程度上也在进行类似的活动。近年来少有的干货演讲Hinton说他要看上10000遍才懂上月在柏林举行的一场演讲为这一疑问提供了一个可能的回答这场演讲的视频在人工智能研究人员间广为分享。演讲中希伯来大学的计算机科学家和神经学家Naftali Tishby提出了一种解释深度学习工作原理的新理论并给出了证据支撑。Tishby认为深度神经网络根据一种被称为“信息瓶颈”information bottleneck的过程在学习他和两位合作者最早在1999年对这一过程进行了纯理论方面的描述。 classvideo_iframe data-vidtype2 allowfullscreen frameborder0 data-ratio1.7647058823529411 data-w480 scrollingno data-srchttp://v.qq.com/iframe/player.html?vidl05535r1v40width670height376.875auto0 styledisplay: block; width: 670px !important; height: 376.875px !important; width670 height376.875 data-vh376.875 data-vw670 srchttp://v.qq.com/iframe/player.html?vidl05535r1v40width670height376.875auto0/Naftali Tishby在柏林的演讲《深度学习理论、算法和应用》时长约58分钟。Hinton评价说这是近年来少有的干货演讲信息瓶颈理论认为网络像把信息从一个瓶颈中挤压出去一般去除掉那些含有无关细节的噪音输入数据只保留与通用概念general concept最相关的特征。Tishby和他的学生Ravid Shwartz-Ziv的最新实验展示了深度学习过程中这种“挤压”是如何发生的至少在他们所研究的案例里。Tishby的发现在AI研究圈激起了强烈的反向。Google Researc的Alex Alemi说“我认为信息瓶颈的想法可能在未来深度神经网络的研究中非常重要。”Alemi已经开发了新的近似方法在大规模深度神经网络中应用信息瓶颈分析。Alemi说信息瓶颈可能“不仅能够用于理解为什么神经网络有用也是用于构建新目标和新网络架构的理论工具”。另外一些研究人员则持怀疑态度认为信息瓶颈理论不能完全解释深学习的成功。但是纽约大学的粒子物理学家Kyle Cranmer——他使用机器学习来分析大型强子对撞机的粒子碰撞——表示一种通用的学习原理a general principle of learning“听上去有些道理”。深度学习先驱Geoffrey Hinton在看完Tishby的柏林演讲后发电子邮件给Tishby。“这简直太有趣了”Hinton写道“我还得听上10,000次才能真正理解它但如今听一个演讲里面有真正原创的想法而且可能解决重大的问题真是非常罕见了。”Tishby认为信息瓶颈是学习的一个基本原则无论是算法也好苍蝇也罢任何有意识的存在或突发行为的物理学计算大家最期待的答案——“学习最重要的部分实际上是忘记”。利用信息论我们能够精确定义“相关性”Tishby很早便开始考虑信息瓶颈的问题那时候其他研究人员也才刚刚开始酝酿深度神经网络尽管当时无论是信息瓶颈还是深度神经网络都还没有得名。那是20世纪80年代Tishby在思考人类是如何做语音识别的——语音识别是当时AI的一个重大挑战。Tishby意识到问题的关键是相关性说出来的一个词最相关的特征是什么我们又该如何从重音、语调、模糊音等变量中将这个特征计算出来在通常情况下当我们面对现实生活中汪洋大海般的数据时哪些信号是我们会保留下来的“相关信息relevant information的概念在历史上提到了许多次但从来没有被正确地形式化”Tishby在上个月接受采访时说“多年来人们认为信息论不是考虑相关性的正确方式这个误解可以一直追溯到香农本人。”克劳德·香农信息论的创始人从某种程度上说是香农解放了人类对信息的研究让信息能够以抽象的0、1形式和纯粹的数学意义被研究。正如Tishby所说的那样香农认为“信息并非关乎语义”。但是Tishby认为这是不正确的。Tishby意识到利用信息论“你能精确定义‘相关’relevant”。希伯来大学计算机科学家和神经学家Naftali Tishby假设X是一个复杂的数据集就像一张狗的照片的像素而Y是这些数据代表的一个更为简单的变量比如单词“狗”。你可以任意压缩X而不丢失预测Y的能力将X中所有与Y“相关”的信息捕获下来。在他们1999年的论文中Tishby和他的共同作者Fernando Pereira现在在谷歌和William Bialek现在在普林斯顿大学将这一过程转换成一个数学优化问题并且提出了数学公式。这是一个没有杀手级应用的核心基础概念。“我沿着这条路在各种不同的情景中思考了30年”Tishby说“我唯一的运气就是深度神经网络变得如此重要。”深度学习与物理重整化是完全相同的过程深度神经网络背后的概念已经存在了几十年但它们在语音和图像识别任务中的表现在最近几年才开始起飞得益于改进了训练方案和更强大的计算机处理器。Tishby在读了物理学家David Schwab和Pankaj Mehta在2014年发表的一篇论文后开始注意到深度学习与信息瓶颈理论的关联。David Schwab和Pankaj Mehta两人发现Hinton发明的“深度信念网络”DBN在一种特定的情况下酷似物理学中的重整化renormalization也就是以粗粒度的方式获取物理系统的细节从而计算其整体状态。当Schwab和Mehta将深度信念网络应用于一个处于“临界点”的磁力模型时这时该系统是分形在任意尺度都自相似他们发现网络会自动使用重整化般的过程来发现模型的状态。这一发现令人震惊正如生物物理学家Ilya Nemenman当时评论所说的那样它表明了“在统计物理的背景下提取相关特征和在深度学习的背景下提取相关特征并不只是类似而是完完全全的同一个。”物理学家David Schwab和Pankaj Mehta在2014年的论文证明在特定情况下深度学习等同于物理中的重整化技术这让Tishby注意到信息瓶颈理论与深度学习之间的关联唯一的问题是在一般情况下现实世界并不是分形。Cranmer说“我不会说[重整化步骤]就是深度学习在处理自然图像时效果这么好的原因。”但Tishby——他当时正在接受胰腺癌化疗——意识到无论是粗粒度过程还是深度学习都可以被一个更广泛通用的想法所涵盖。“对科学和对我以前想法的思考是我的治疗和康复的重要组成部分”Tishby说。Naftali Tishby的学生Noga Zaslavsky左和Ravid Shwartz-Ziv他们帮助开发了深度学习信息瓶颈理论。信息瓶颈网络在抽取相关性时的理论边界2015年Tishby和他的学生Noga Zaslavsky假设深度学习是一个信息瓶颈过程尽可能地压缩噪声数据同时保留数据所代表的信息。Tishby和Shwartz-Ziv对深度神经网络的新实验揭示了瓶颈过程如何实际发生的。在一种情况下研究人员使用小型神经网络使用随机梯度下降和BP经过训练后能够用1或0也即“是狗”或“不是狗”标记输入数据并给出其282个神经连接随机初始强度然后跟踪了网络在接收3000个样本输入数据集后发生了什么。实验中Tishby和Shwartz-Ziv跟踪了每层网络保留了多少输入中的信息和输出标签中的信息。结果发现信息经过逐层传递最终收敛到信息瓶颈的理论边界也就是Tishby、Pereira和Bialek在他们1999年论文中推导出的理论界限代表系统在抽取相关信息时能够做到的最好的情况。在这个边界上网络在没有牺牲准确预测标签能力的情况下尽可能地压缩输入。Tishby和Shwartz-Ziv还提出了一个有趣的发现即深度学习分为两个阶段一个简短的“拟合”阶段在此期间网络学着去标注其训练数据以及一个更长时间的“压缩”阶段在这个阶段网络变得能够泛化也即标记新的测试数据。作者在论文中指出他们在实验中首次观察到了随机梯度下降优化过程中两个独特的阶段经验误差最小化ERM和表示压缩。上图展示了SGD过程中信息逐层传递收敛的情况。在深度神经网络通过随机梯度下降调整其连接权重的过程中首先网络存储的关于输入的数据会大致保持恒定或者稍微增加一点点这时网络连接会进行调整为输入中的模式进行编码更好地拟合标签。有一些专家也将这个阶段与记忆进行了类比。然后学习切换到压缩阶段。网络开始扔掉一些关于输入数据的信息只跟踪最强的特征——与输出标签最相关的那些关联correlation。这是因为在随机梯度下降的每次迭代中训练数据中或多或少的意外相关性会告诉网络做不同的事情在随机游走random walk中上下拨动神经连接的强度。这种随机化与压缩系统输入数据的表示representation实际上是相同的。看这个例子一些狗的照片的背景中可能有房子而其他的照片没有。在网络不停地训练过程中它可能会“忘记”一些照片中房屋和狗之间的相关性因为其他照片抵消了这一点。Tishby和Shwartz-Ziv认为正是对细节的遗忘使得系统能够形成通用的概念。实际上他们的实验表明深度神经网络在压缩阶段提高了泛化性能在标记测试数据方面变得更好。 A. 初始状态第一层的神经元编码输入数据的所有信息包括其中的标签信息。最高层神经元处于几乎无序的状态和输入数据或者其标签没有任何关联。B. 拟合状态深度学习刚开始的时候高层神经元获得输入数据的信息并逐渐学会匹配标签。C. 状态变化网络的层的状态突然发生变化开始「遗忘」输入数据的信息。D. 压缩状态网络的高层压缩对输入数据的表示保留与输出标签关联最大的表示这些表示更擅长预测标签。E. 最终状态网络的最高层在准确率和压缩率之间取得平衡只保留可以预测标签的信息。信息瓶颈能否解释所有的深度学习信息瓶颈是否能解释所有深度学习除了压缩以外是否还有其他的泛化途径这些还有待观察。一些AI专家认为Tishby的想法是近期出现的关于深度学习最重要的理论见解之一。不过哈佛大学AI研究员和理论神经科学家Andrew Saxe指出某些非常大的深度神经网络似乎不需要专门的压缩阶段来泛化。研究人员会用一种叫做“早期停止”early stopping的方式进行编程减少训练从一开始就防止网络编码过多的相关性。Tishby认为Saxe及其同事分析的网络模型与标准的深度神经网络架构有所不同但是即使如此信息瓶颈的理论界限比其他方法更好地定义了这些网络的泛化性能。关于瓶颈是否适用于较大神经网络Tishby和Shwartz-Ziv的最新实验部分解决了这一问题。在最新的这项实验中Tishby他们训练了更大的拥有33万连接的深度神经网络识别美国国家标准和技术研究所数据库Modified National Institute of Standards and Technology database中60,000张手写数字的图像这也是衡量深度学习算法性能的一个知名基准。Tishby和Shwartz-Ziv观察到了同样的现象网络收敛到了信息瓶颈的理论界限他们也观察到了深度学习那两个截然不同的阶段并且与较小的网络相比大规模网络在这两个阶段的转换更加明显。“我现在完全相信这是一个普遍现象。”Tishby说。人与机器学习过程中最重要的是遗忘大脑如何从我们的感官中筛选信号并将其提升到意识水平的谜团驱使了早期AI研究者对深度神经网络的兴趣他们希望逆向设计大脑的学习规则。时至今日AI从业者在技术进步的狂热中已经在很大程度上放弃了这一点迷醉于提高性能而不考虑生物学上的合理性。不过在他们打造的思维机器能力不断提升的过程中许多研究人员仍然希望这些探索能够揭示关于学习和智能的通用见解。纽约大学心理学和数据科学助理教授Brenden Lake致力于研究人类和机器学习的异同他认为Tishby的发现是“打开神经网络黑匣子的重要一步”。但Lake强调说大脑代表了一个更大、更黑的黑盒子。成年人的大脑拥有860亿个神经元之间更有数百万亿个连接很可能采用了众多策略来加强泛化远远超越婴儿期发生的基本的图像和声音识别的学习过程后者在很大程度上类似当前的深度学习。Lake说Tishby观察到的拟合和压缩阶段似乎并不能对应到儿童学习手写字符的过程中。 人类孩子学习认字写字并不需要看数千个字符并在比较长的时间中压缩他们思维中的表示representation。事实上人类儿童可以从一个样本中学习。Lake和他的同事构建模型表明大脑可能会把新的字符解构成一系列的笔画——以前就有的思维表示从而将字母letter的概念加入到先前的知识大厦中“而不是像标准的机器学习算法一样将一个字母作为像素图案来学习通过映射特征学习概念”。Lake说人类建立了一个简单的因果模型——一个更短的泛化路径。这种想法可能为AI研究社区带来启发进一步推动两个领域彼此间的往来。Tishby认为他的信息瓶颈理论最终将被证明在两门学科中都有用可能在人类学习中采取一种比AI学习更泛化的表示。信息瓶颈理论的一个直接应用便是更好地了解人类神经网络和人工神经网络可以解决哪些问题。“它给出了可以学习的问题的完整描述”Tishby说“这些都是我可以在输入中消除噪音而不会损害我分类能力的问题。例如自然视觉、语音识别。这些也正是我们的大脑可以应付的问题。”同时人类神经网络和人工神经网络都无法很好地解决另一些问题那就是每个细节都很重要因此无法去除信息的问题。例如大多数人不能快速地在心里将两个数字相乘。Tishby说“我们有一大堆类似这样的问题改变一个变量都会引发全局变化的逻辑问题。例如离散问题、加密问题。我不认为深度学习都帮助我破译密码。”泛化——或者说遍历信息瓶颈——意味着舍弃一些细节。这对心算不好但心算并不是大脑的主要任务。我们擅长在人群中寻找熟悉的面孔在嘈杂、混乱的世界中对寻找显著信号的秩序。正如Naftali Tishby所说学习中最重要的实际上是遗忘。原文https://www.quantamagazine.org/new-theory-cracks-open-the-black-box-of-deep-learning-20170921/