当前位置: 首页 > news >正文

来宾网站制作公司网页显示站点不安全

来宾网站制作公司,网页显示站点不安全,php做在线直播网站,中国建设银行宁夏分行网站来源#xff1a;机器学习研究组订阅通用人工智能#xff0c;用强化学习的奖励机制就能实现吗#xff1f;几十年来#xff0c;在人工智能领域#xff0c;计算机科学家设计并开发了各种复杂的机制和技术#xff0c;以复现视觉、语言、推理、运动技能等智能能力。尽管这些努… 来源机器学习研究组订阅通用人工智能用强化学习的奖励机制就能实现吗几十年来在人工智能领域计算机科学家设计并开发了各种复杂的机制和技术以复现视觉、语言、推理、运动技能等智能能力。尽管这些努力使人工智能系统在有限的环境中能够有效地解决特定的问题但却尚未开发出与人类和动物一般的智能系统。人们把具备与人类同等智慧、或超越人类的人工智能称为通用人工智能AGI。这种系统被认为可以执行人类能够执行的任何智能任务它是人工智能领域主要研究目标之一。关于通用人工智能的探索正在不断发展。近日强化学习大佬 David Silver、Richard Sutton 等人在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化。论文地址https://www.sciencedirect.com/science/article/pii/S0004370221000862该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为。因此他们得出结论强化学习将促进通用人工智能的发展。AI 的两条路径创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素。例如我们对哺乳动物视觉系统的理解催生出各种人工智能系统这些系统可以对图像进行分类、定位照片中的物体、定义物体的边界等。同样我们对语言的理解也帮助开发了各种自然语言处理系统比如问答、文本生成和机器翻译。但这些都是狭义人工智能的实例只是被设计用来执行特定任务的系统而不具有解决一般问题的能力。一些研究者认为组装多个狭义人工智能模块将产生更强大的智能系统以解决需要多种技能的复杂问题。而在该研究中研究者认为创建通用人工智能的方法是重新创建一种简单但有效的规则。该研究首先提出假设奖励最大化这一通用目标足以驱动自然智能和人工智能中至少大部分的智能行为。」这基本上就是大自然自身的运作方式。数十亿年的自然选择和随机变异让生物不断进化。能够应对环境挑战的生物才能得以生存和繁殖其余的则被淘汰。这种简单而有效的机制促使生物进化出各种技能和能力来感知、生存、改变环境以及相互交流。研究者说「人工智能体未来所面临的环境和动物与人类面临的自然世界一样本质上是如此复杂以至于它们需要具备复杂的能力才能在这些环境中成功生存。」因此以奖励最大化来衡量的成功需要智能体表现出相关的智能能力。从这个意义上说奖励最大化的一般目标包含了许多甚至可能是所有的智能目标。并且研究者认为最大化奖励最普遍和可扩展的方式是借助与环境交互学习的智能体。奖励就足够了与人工智能的许多交互式方法一样强化学习遵循一种协议将问题分解为两个随时间顺序交互的系统做出决策的智能体解决方案和受这些决策影响的环境问题。这与其他专用协议形成对比其他专用协议可能考虑多个智能体、多个环境或其他交互模式。基于强化学习的思想该研究认为奖励足以表达各种各样的目标。智能的多种形式可以被理解为有利于对应的奖励最大化而与每种智能形式相关的能力能够在追求奖励的过程中隐式产生。因此该研究假设所有智能及相关能力可以理解为一种假设「奖励就足够了」。智能及其相关的能力可以理解为智能体在其环境中的行为奖励最大化。这一假设很重要因为如果它是正确的那么一个奖励最大化智能体在服务于其实现目标的过程中就可以隐式地产生与智能相关的能力具备出色智能能力的智能体将能够「适者生存」。研究者从以下几个方面论述了「奖励就足够了」这一假设。知识和学习该研究将知识定义为智能体内部信息例如知识可以包含于用于选择动作、预测累积奖励或预测未来观测特征的函数参数中。有些知识是先验知识有些知识是通过学习获得的。奖励最大化的智能体将根据环境情况包含前者例如借助自然智能体的进化和人工智能体的设计并通过学习获取后者。随着环境的不断丰富需求的平衡将越来越倾向于学习知识。感知人类需要各种感知能力来积累奖励例如分辨朋友和敌人开车时进行场景解析等。这可能需要多种感知模式包括视觉、听觉、嗅觉、躯体感觉和本体感觉。相比于监督学习从奖励最大化的角度考虑感知最终可能会支持更广泛的感知行为包括如下具有挑战性和现实形式的感知能力动作和观察通常交织在多种感知形式中例如触觉感知、视觉扫视、物理实验、回声定位等感知的效用通常取决于智能体的行为获取信息可能具有显式和隐式成本数据的分布通常依赖于上下文在丰富的环境中潜在数据多样性可能远远超过智能体的容量或已存在数据的数量——这需要从经验中获取感知感知的许多应用程序无法获得有标记的数据。社交智能社交智能是一种理解其他智能体并与之有效互动的能力。根据该研究的假设社交智能可以被理解为在智能体环境中的某一智能体最大化累积奖励。按照这种标准智能体 - 环境协议一个智能体观察其他智能体的行为并可能通过自身行为影响其他智能体就像它观察和影响环境的其他方面一样。一个能够预测和影响其他智能体行为的智能体通常可以获得更大的累积奖励。因此如果一个环境需要社交智能(例如包含动物或人类的环境)奖励最大化将能够产生社交智能。语言语言一直是自然和人工智能领域大量研究的一个主题。由于语言在人类文化和互动中起着主导作用智能本身的定义往往以理解和使用语言的能力为前提尤其是自然语言。然而当前的语言建模本身不足以产生更广泛的与智能相关的语言能力包括语言通常是上下文相关的不仅与所说的内容相关还与智能体周围环境中正在发生的其他事情有关有时需要通过视觉和其他感官模式感知。此外语言经常穿插其他表达行为例如手势、面部表情、音调变化等。语言是有目的并能对环境产生影响的。例如销售人员学习调整他们的语言以最大化销售额。语言的具体含义和效用因智能体的情况和行为而异。例如矿工可能需要有关岩石稳定性的语言农民可能需要有关土壤肥力的语言。此外语言可能存在机会成本例如讨论农业的人并不一定是从事农业工作。在丰富的环境中语言处理不可预见事件的潜在用途可能超出任何语料库的能力。在这些情况下可能需要通过经验动态地解决语言问题。例如开发一项新技术或找到一种方法来解决一个新的问题。该研究认为基于「奖励就足够了」的假设丰富的语言能力包括所有这些更广泛的能力都应该源于对奖励的追求。泛化泛化能力通常被定义为将一个问题的解决方案转换为另一个问题的解决方案的能力。例如在监督学习中泛化可能专注于将从一个数据集例如照片学到的解决方案转移到另一个数据集例如绘画。根据该研究的假设泛化可以通过在智能体和单个复杂环境之间的持续交互流中最大化累积奖励来实现这同样遵循标准的智能体 - 环境协议。人类世界等环境需要泛化因为智能体在不同的时间会面对环境的不同方面。例如一只吃水果的动物可能每天都会遇到一棵新树这个动物也可能会受伤、遭受干旱或面临入侵物种。在每种情况下动物都必须通过泛化过去状态的经验来快速适应新状态。动物面临的不同状态并没有被整齐地划分为具有不同标签的任务。相反状态取决于动物的行为它可能结合了在不同时间尺度上重复出现的各种元素可以观察到状态的重要方面。丰富的环境同样需要智能体从过去的状态泛化到未来的状态以及所有相关的复杂性以便有效地积累奖励。模仿模仿是与人类和动物智能相关的一种重要能力它可以帮助人类和动物快速获得其他能力例如语言、知识和运动技能。在人工智能中模仿通常被表述为通过行为克隆从演示中学习并提供有关教师行为、观察和奖励的明确数据时。相比之下观察学习的自然能力包括从观察到的其他人类或动物的行为中进行的任何形式的学习并且不要求直接访问教师的行为、观察和奖励。这表明与通过行为克隆的直接模仿相比在复杂环境中可能需要更广泛和现实的观察学习能力包括其他智能体可能是智能体的环境的组成部分例如婴儿观察其母亲而无需假设存在包含教师数据的特殊数据集智能体可能需要学习它自己的状态与另一个智能体的状态之间的关联或者智能体自己的动作和另一个智能体的观察结果这可能会产生更高的抽象级别其他智能体可能只能被部分观察到因此他们的行为或目标可能只是被不完美地推断出来其他智能体可能会表现出应避免的不良行为环境中可能有许多其他智能体表现出不同的技能或不同的能力水平。该研究认为这些更广泛的观察学习能力能够由奖励最大化驱动的从单个智能体的角度来看它只是将其他智能体视为其环境的组成部分这可能会带来许多与行为克隆相同的好处。例如样本高效的知识获取但这需要更广泛和更综合的背景下。通用智能基于该研究的假设通用智能可以理解为通过在单一复杂的环境中最大化一个特殊奖励来实现。例如自然智能在其整个生命周期中都面向从与自然世界的互动中产生的连续经验流。动物的经验流足够丰富和多样它可能需要灵活的能力来实现各种各样的子目标例如觅食、战斗、逃跑等以便成功地最大化其整体奖励例如饥饿或繁殖 。类似地如果人工智能体的经验流足够丰富那么单一目标例如电池寿命或生存可能隐含地需要实现同样广泛的子目标的能力因此奖励最大化应该足以产生一种通用人工智能。强化学习智能体该研究的主要假设是智能及其相关能力可以被理解为促进奖励最大化这与智能体的性质无关。因此如何构建最大化奖励的智能体是一个重要问题。该研究认为这个问题同样可以通过问题本身即「奖励最大化」来回答。具体来说研究者设想了一种具有一般能力的智能体然后从他们与环境交互的持续经验中学习如何最大化奖励。这种智能体被称之为强化学习智能体。在所有可能的最大化奖励的解决方法中最自然的方法当然是通过与环境交互从经验中学习。随着时间的推移这种互动体验提供了大量关于因果关系、行为后果以及如何积累奖励的信息。与其预先确定智能体的行为相信设计者对环境的预知不如赋予智能体发现自己行为的一般能力相信经验是很自然的。更具体地说最大化奖励的设计目标是通过从经验中学习最大化奖励的行为的持续内部过程来实现的。奖励真的足够了吗对于该研究「奖励就足够了」的观点有网友表示不赞成「这似乎是对个人效用函数这一共同概念的重新语境化。所有生物都有效用函数他们的目标是最大化他们的个人效用。效用理论有着深厚而丰富的历史渊源但本文对效用理论的认识并不多见。Silver 和 Sutton 都是 RL 领域的大牛但对我而言这篇论文给我的感觉很糟糕。」还有网友认为这是重新包装进化论如此优秀的两位计算机科学家这是在重新包装进化论这里的实际意义是什么如果有足够的时间和复杂性进化奖励信号可以发明智能。这有什么意义智能需要从奖励中获得就像是在表述「人会呼吸」这似乎是句废话。甚至有人质疑「备受尊敬的研究者更容易陷入过度自信」还有网友表示「这篇文章没有对可以做什么和不能做什么设置任何界限。难道无需直接分析函数即可知道在尝试最大化函数时可以或不能出现什么吗奖励函数与获得这些奖励的系统相结合完全确定了 “可出现” 行为的空间而无论出现什么对它们来说都是智能行为。」不过也有人提出了一个合理的问题最终目标奖励是否会产生一般的智能或者是否会产生一些额外的信号纯奖励信号是否会陷入局部最大值他们的论点是对于一个非常复杂的环境它不会。但如果你有一个足够复杂的环境模型有足够的参数并且你不会陷入局部最大值那么一旦系统解决了问题中的琐碎简单的部分唯一的方法是提高性能创建更通用的解决方案即变得更智能。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.huolong8.cn/news/25768/

相关文章:

  • 网站模版建设工具网站你懂我意思正能量app
  • 学校的网站建设和资源库建设网站运维托管
  • 免费做app网站新品牌进入市场的推广方案
  • 详细描述建设网站深圳市制作网站
  • 网站建设 aderhtml网站的上传
  • 企业网站建设解决方案保定官网优化技巧
  • 自己做网站用什么数据库wordpress iphoto
  • 网站采用哪种开发语言网站空间已过期
  • 网站有版权吗写网站建设的论文
  • 临沂专业网站制作秦洁婷seo博客
  • 财政局门户网站建设方案房产网站源码wordpress
  • 3 阐述网站建设的步骤过程微商怎么找客源人脉
  • 用自家宽带做网站服务器汕头第一网告别单身
  • 网站建设模板代码下载代写
  • 如何建设一个新的网站在线logo制作
  • 贵州公司网站建设深圳网页设计培训班价格
  • 哪里有做图片的网站3合1网站建设价格
  • 东莞个人网站推广建设江西做网站优化好的
  • 青岛建设银行股份有限公司网站首页找营销推广团队
  • wordpress 网站播放器插件学会网站建设总结
  • 厦门做企业网站多少钱制作网站软件排行榜
  • 广州做网站制作网站关键词在哪设置
  • iis6 网站无法访问广东网站优化
  • 网站的建设模式是指什么wordpress是什么系统
  • 网站建设实训结论与分析总结iis 网站绑定域名
  • 手机 网站服务器电子工程职业学院
  • 男和女做暖暖网站网页设计动态页面
  • 可做宣传的网站都有哪些中山网站建设电话
  • 南阳网站建设xihewh做外汇有哪些正规的网站
  • 广告传媒公司网站怎么做宣传片制作公司长沙