当前位置: 首页 > news >正文

站内seo是什么意思网站设计大概流程

站内seo是什么意思,网站设计大概流程,制作婚纱摄影网站管理图,客户关系管理系统功能摘要#xff1a; 本文主要是讲解了机器学习中的增强学习方法的基本原理#xff0c;常用算法及应用场景#xff0c;最后给出了学习资源#xff0c;对于初学者而言可以将其作为入门指南。 强化学习#xff08;Reinforcement Learning#xff09;是当前最热门的研究课题之一…摘要 本文主要是讲解了机器学习中的增强学习方法的基本原理常用算法及应用场景最后给出了学习资源对于初学者而言可以将其作为入门指南。 强化学习Reinforcement Learning是当前最热门的研究课题之一它在AlphaGo中大放光彩同时也变得越来越受科研人员的喜爱。本文主要介绍关于增强学习5件有用的事儿。 1.强化学习是什么与其它机器学习方法有什么关系 强化学习是一种机器学习方法它使Agent能够在交互式环境中年通过试验并根据自己的行动和经验反馈的错误来进行学习。虽然监督学习和强化学习都使用输入和输出之间的映射关系但强化学习与监督学习不同监督学习提供给Agent的反馈是执行任务的正确行为而强化学习使用奖励和惩罚作为积极和消极行为的信号。 与无监督学习相比而言强化学习在目标方面有所不同。虽然无监督学习的目标是找出数据点之间的相似性和不同性但是在强化学习中其目标是找到一个合适的动作模型能够最大化Agent的累积奖励总额。下图表示了强化学习模型中涉及的基本思想和要素。图1 增强学习模型框图 2.如何创建一个基本的强化学习问题 在介绍本节内容之前先介绍下增强学习问题中的一些关键术语 环境EnvironmentAgent操作的现实世界 状态StateAgent的现状 奖励Reward来自环境的反馈 策略Policy将Agent的状态映射到动作的方法 价值ValueAgent在特定状态下采取行动所得到的报酬 可以通过游戏很好地解释强化学习问题以PacMan游戏为例Agent的目标是在网络中吃掉食物同时也要躲避幽灵。网格世界就是Agent的交互环境如果PacMan吃掉食物则获得奖励但如果被幽灵杀死输掉游戏则受到惩罚。PacMan在网格中的位置就是其所处的状态达到累积奖励总额则PacMan赢得比赛。 为了建立一个最优策略Agent需要不断探索新的状态同时最大化其所获奖励累积额度这也被称作试探和权衡。 马尔可夫决策过程MDPs是用来描述增强学习环境的数学框架几乎所有的增强学习问题都可以转化为MDps。MDP由一组有限环境状态S、每个状态中存在的一组可能行为A(s)、一个实值奖励函数R(s)以及一个转移模型P(s’,s|a)组成。然而现实世界环境可能更缺乏对动态环境的任何先验知识。在这种情况下Model-free很有效。Model-free一直在每一步中去尝试学习最优的策略在多次迭代后就得到了整个环境最优的策略Q-learning。 Q-learning是一种常用的模型能够用于构建自己玩PacMan的Agent它始终围绕着更新Q值Q值表示在状态s时执行动作a的值价值更新规则是Q-learning算法的核心。图2 增强学习更新规则图3 PacMan游戏 3.最常用的强化学习算法有哪些 Q-learning和SARSAState-Action-Reward-State-Action是两种常用的model-free强化学习算法。虽然它们的探索策略不同但是它们的开发策略却相似。虽然Q-learning是一种离线off-policy学习方法其中Agent根据从另一个策略得到的行动a*学习价值但SARSA是一个在线on-policy学习方法它从目前的策略中获得当前行动的价值。这两种方法实施起来很简单但缺乏一般性因为无法估计出不可见状态的价值。 但以上问题可以通过更先进的算法来克服比如使用神经网络估计Q值的Deep Q-NetworksDQN。但是DQN只能处理离散、低维动作空间因此对于高维、连续动作空间科研人员发明了一种名为Deep Deterministic Policy GradientDDPG的算法该算法是一个model-free、离线演员评判家算法Actor-critic algorithm。图4 Actor-critic algorithm 4.强化学习有哪些实际应用 由于增强学习需要大量的数据因此它最适用于模拟数据领域比如游戏、机器人等。 在电脑游戏中增强学习被广泛地应用于人工智能的构建中。AlphaGo Zero是围棋界第一个击败世界冠军的计算机程序类似的还有ATARI游戏、西洋双陆棋等。 在机器人和工业自动化领域增强学习被用于使机器人为其自身创建一个高效的自适应控制系统从而能够从自己的经验和行为中学习。DeepMind在深度增强学习上的成果也是一个很好的例子。 增强学习的其它应用包括文本摘要引擎、对话代理文本、语言它们可以从用户交互中学习并随着时间的推移而不断改进。此外对于医疗保健和在线股票交易而言基于增强学习的性能也是最佳的。 5.如何开始学习增强学习 以下有一些相关的学习资源 1.强化学习第二版Reinforcement Learning-An Introduction增强学习之父RicharSutton和其导师Andrew barto所写的书籍一本不错的权威资料在线阅读链接http://incompleteideas.net/book/the-book-2nd.html 2.教材David Sliver老师的视频讲座是一份很好的增强学习入门课程。 3.其它关于增强学习的技术教程由Pieter Abbeel和John Schulman所写Open AI/Berkeley人工智能实验室 4.从构建和测试增强学习agent开始学习之旅 5.该链接的博客能够帮助你使用仅仅130行Python代码启动并运行自己的第一个深度增强学习模型 6.DeepMind Lab是公开的一款开源立体游戏平台专门为研究通用人工智能和机器学习系统而设计。 7.Project Malmo是微软公司开源的人工智能项目也是支持人工智能领域的基础研究。 8.OpenAI Gym是开发和比较强化学习算法的工具包。 原文链接 干货好文请关注扫描以下二维码
http://www.yutouwan.com/news/63423/

相关文章:

  • 高端网站设计简介网站没有收录原因
  • 自做刷赞网站wordpress主題移动端
  • 广西网站建设运营费用重庆建设网站公司
  • 太平鸟品牌门户网站建设网站的备案
  • 手机非法网站怎么解决方案wordpress设置权限777
  • 合肥网站开发cnfg企业做网站要注意些什么问题
  • 外包服务网站排名网站布局 种类
  • 优秀企业网站欣赏制作公司网站用阿里云
  • 松江区网站建设百度推广弄个网站头像要钱吗?
  • 云建站管理区推广论坛有哪些
  • wordpress网站主机wordpress可以放视频播放器
  • 企业加强网站建设的必要性网站安全建设目的是什么
  • 自己做免费的网站吗设计一个完整的静态网站
  • metro风格网站开发一个类引用另一个类的方法
  • 怎么在搜索引擎做网站登记网站建设天猫店
  • 手机网站seo免费软件沈阳建网站公司
  • 如何用文档创建一个网站做企业网站需要提供什么
  • 公关公司网站网站改版数据来源表改怎么做
  • 网站建设 图片问题asp源码-漂亮企业源码大气公司网站模版
  • 网站推广优化技巧大全最简单的网站系统
  • 深圳网站建设及推广定制微信
  • 做个网站需要多久网站设计费用多少google谷歌搜索引擎入口
  • 兰州营销型网站wordpress做淘宝客页面
  • 桐城58网站在那里做30岁初中学历怎么提升
  • 企业网站建设技巧怎么自己创建网站免费
  • 请简述网站建设流程图wordpress网站克隆
  • 做博客用什么系统做网站好医药销售网站开发背景
  • 公众号 网站开发网站目标规划
  • 广州开发区投资集团有限公司四川网络推广seo
  • 网站设计的意义网推推荐信