大学校园网站模板图片,wordpress 清空数据库表,医疗电子科技网站建设,wordpress knowhow来源#xff1a;AI科技评论编译#xff1a;王晔校对#xff1a;维克多人类已经证明#xff0c;大脑中的神经系统拥有为不断适应外界环境的变化而改变自身结构的能力。大脑内部的突触、神经元之间的连接可以由于学习和经验的影响建立新的连接。相应的#xff0c;感官替代AI科技评论编译王晔校对维克多人类已经证明大脑中的神经系统拥有为不断适应外界环境的变化而改变自身结构的能力。大脑内部的突触、神经元之间的连接可以由于学习和经验的影响建立新的连接。相应的感官替代sensory substitution这一天赋也存在人类技能树之中例如有些天生失明的人能够通过将图像转换成声音学会感知人体轮廓形状的能力。如果让AI拥有这种能力它也能像蝙蝠和海豚一样能够利用其耳朵通过声音和回声来‘看’周围的世界一样。近日来自谷歌大脑的一篇题为“The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning”的论文证明了强化学习拥有这种“感官替代”的能力。论文地址https://arxiv.org/pdf/2109.02869.pdf具体而言作者在论文中设计了一系列强化学习系统其能够将来自环境的每种感觉输入sensory inputs到不相同却具有一定联系的神经网络中值得一提的是这些神经网络之间没有固定的关系。研究表明这些感觉网络可以通过训练来整合本地收到的信息并且通过注意机制的交流可以集体达成一个全局一致的方案。此外即使在一个事件中输入顺序被随机地排列多次该系统仍然可以执行其任务。1证明过程现代深度学习系统通常无法适应感觉输入的随机重新排序除非对模型进行重新训练或者用户为模型纠正输入的顺序。然而meta-learning这项技术可以帮助模型适应这种变化。例如adaptive weights、Hebbian-learning和model-based等方法。在论文中作者研究的agents都有一个共同的特点在执行任务时被用来处理感觉输入并将输入突然随机重新进行排序。受到与细胞自动机相关的自组织神经网络的最新发展的启发作者在实验中将每个感觉输入可以是连续控制环境中的单个状态或者是视觉环境中的一块像素输入一个单独的神经网络模块该模块在一段时间内只整合来自这个特定感觉输入通道的信息。在本地接收信息的同时这些单独的感觉神经网络模块也不断地广播输出信息。参考Set Transformer架构一个注意力机制将这些信息结合起来形成一个全局的潜代码global latent code然后将其转换为agent的行动空间。注意力机制可以被看作是神经网络适应性加权的一种形式在这种情况下允许任意数量的感觉输入以任何随机顺序被处理。实验中作者发现每个单独的感觉神经网络模块虽然只能接收到局部信息但仍能共同产生一个全局一致的策略而且这样的系统可以被训练来执行几个流行的强化学习RL环境中的任务。此外作者设计的系统能够以任何随机排列的顺序利用不同数量的感觉输入通道即使在一个episode中顺序再次被重新排列。如上图pong agent即使在给它一个小的屏幕子集30%以一个重新排列的顺序也能继续工作。另一方面鼓励系统学习的置换不变的观测空间的连贯性表示会使 policies更加稳健泛化性更强。研究表明在没有额外训练的情况下即使加入含有噪声或冗余信息的其它输入通道系统也能继续运作。在视觉环境中即使只给它一小部分从屏幕上随机选择的区块而在测试时如果给它更多的区块系统可以利用额外的信息来表现得更好。作者还证明尽管在单一的固定背景上进行训练系统还是能够推广到具有不同背景图像的视觉环境。最后为了使训练更加实用作者提出了一个行为克隆behavioral cloning方案将用现有方法训练的策略转换成具有理想特性的置换不变的策略。图注方法概述上图的AttentionNeuron 是一个独立的层其中每个感觉神经元只能访问“无序观察unordered observations”的一部分。结合agent的前一步动作每个神经元使用共享函数然后独立生成信息。图注符号列表在上述表格中作者还提供了我们的模型中用于不同强化学习环境的维度以使读者了解系统中每一部分。图注CartPoleSwingUpHarder中的置换不变agent在上述演示中用户可以随时重新排列5个输入的顺序并观察agent如何适应输入的新顺序。演示地址https://attentionneuron.github.io/图注车杆测试作者报告了每个实验的1000个测试事件的平均得分和标准偏差。agent只在有5个感觉输入的环境中进行训练。图注置换不变的输出当作者按原样输入传感器阵列顶部或随机重新排列阵列底部时Attention Neuron层的输出16维全局潜代码不会改变。黄色代表较高的数值而蓝色代表较低的数值。图注处理未指定数量的额外噪声通道在没有额外训练的情况下agent接收15个按重新排列后顺序排列的输入信号其中10个是纯高斯噪声σ0.1另外5个是来自环境的实际观察结果。像先前的演示一样用户可以对15个输入的顺序进行重新排列并观察agent如何适应新的输入顺序。图注注意力神经元层的输出在测试情节中的二维嵌入作者在图中突出了几个有代表性的组并展示了它们的抽样输入。每个组我们显示3个相应的输入行并对每个输入进行解堆以显示时间维度列。CarRacing的基本任务左修改后的洗屏任务右。作者的agent只在这个环境中训练。如上图所示右边的屏幕是agent观察到的左边的是人类的视觉观察到的。人类会发现用重新排列观察的方式驾驶是非常困难的因为人类没有经常接触到这样的任务就像前面提到的 倒骑自行车 的例子。2讨论以及未来在这项工作中作者研究了深度学习agents的特性这些agents可以把它们的观察作为一个任意排序的、可变长度的感觉输入列表。通过独立地处理每个输入流并使用注意力整合处理后的信息。即使观测的顺序在一个episode中被随机地改变了多次而且没有进行训练agents仍然可以执行任务。我们在下表中报告了每个环境的性能对比结果。在展开的工作中重新梳理观测结果在每个episode中作者每隔t step重新打乱顺序观察。CartPole任务差异较大因此对它测试了1000次。其他任务报告了100次测试的平均值和标准偏差。除了Atari Pong所有环境都有每集1000 step的硬性限制。在Atari Pong中虽然不存在一集的最大长度但观察到每个episode通常持续2500 step左右。通过打乱agent排序甚至是不完整的观测信息可以驱动它解释每个局部感觉输入的意义以及它们与全局的关系这在目前的许多应用中都有实际用途。例如当被应用于机器人时可以避免由于交叉布线或复杂的动态输入-输出映射而产生的错误。类似于CartPole实验的设置加上额外的噪声通道可以使一个收到成千上万的噪声输入通道的系统识别出具有相关信息的小的通道子集。局限性在于对于视觉环境patch size的选择会影响性能和计算的复杂性。作者发现6x6像素的patch size在任务中很有效4x4像素的patch size在某种程度上也可发挥效用但单个像素的观察却不能发挥作用。小的patch size也会产生一个大的注意力矩阵除非使用近似值否则计算成本可能会过高。另一个限制是排列组合不变的特性只适用于输入而不适用于输出。虽然观测结果的排序可以以再次打乱但行动的排序却不能。为了使置换不变的输出发挥作用每个环节都需要来自环境的反馈以便学习自身和环境之间的关系包括奖励信息。一个颇为有趣的未来研究方向是使行动层也具有相同的属性并将每个运动神经元建模为一个使用注意力连接的模块。有了作者的方法就有可能训练一个具有任意数量的agent或者用一个单一的被提供了一个奖励信号作为反馈的policy控制具有不同形态的机器人。此外在这项工作中作者设计的方法接受以前的行动作为反馈信号。然而反馈信号并不局限于行动。作者表示其期待看到未来的工作包括环境奖励等信号不仅能适应观察到的环境变化还能适应自身的变化以训练置换不变的 meta-learning agents。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”