当前位置: 首页 > news >正文

建筑公司网站设计模板湖州做网站公司

建筑公司网站设计模板,湖州做网站公司,seo搜索引擎优化介绍,网络营销推广的途径简介 时序差分方法#xff08;Temporal-Difference Learning#xff09;简称TD算法是强化学习中非常经典的一种方法#xff0c;Sarsa算法和Q-learning算法都是基于时序差分这种方法的。 强化学习分为基于模型和不基于模型的方法 基于模型的方法#xff1a;是一种通过建立…简介 时序差分方法Temporal-Difference Learning简称TD算法是强化学习中非常经典的一种方法Sarsa算法和Q-learning算法都是基于时序差分这种方法的。 强化学习分为基于模型和不基于模型的方法 基于模型的方法是一种通过建立对环境的模型来预测状态和行动结果然后基于这些预测来制定最优策略的方法在基于模型的强化学习中智能体会尝试建立一个对环境的内部模型该模型可以预测在给定状态下采取某个行动后可能产生的下一个状态以及相应的奖励。这个内部模型可以是一个确定性模型也可以是一个概率性模型。不基于模型的方法一种直接通过与环境的交互来学习最优策略的方法而不依赖于对环境的内部模型的预测。在不基于模型的强化学习中智能体通过与环境的交互来学习观察采取不同行动后环境的反馈并根据这些反馈来调整自己的策略。不基于模型的方法通常包括两个主要步骤首先是通过与环境的交互来收集数据然后使用这些数据来直接学习最优的策略。 总结来讲就是: 不基于模型,就基于数据 TD算法 TD算法是不基于模型的即是基于数据的。 要的数据是什么呢就是以下的数据经验 就是策略 π \pi π产生的经验即状态s、奖励r、下一状态s…这种序列。 TD算法的形式如下 解释 v t ( s t ) v_t(s_t) vt​(st​)就是估计的state value值state value的定义在贝尔曼方程中可以翻看之前的文章进行查看。 首先 v t 1 ( s t ) v_{t1}(s_t) vt1​(st​)是对 v t ( s t ) v_t(s_t) vt​(st​)的一个新的估计值是由式子右边得到的。 r t 1 γ v t ( s ( t 1 ) ) r_{t1}γv_t(s_(t1)) rt1​γvt​(s(​t1))叫做TD target实际上是希望 v t ( s t ) v_t(s_t) vt​(st​)朝着TD target方向进行调整就是更加接近于TD target之后我们会介绍原理。 v t ( s t ) v_t(s_t) vt​(st​)减去TD target叫做TD error相当于损失值 TD算法是怎么让 v t ( s t ) v_t(s_t) vt​(st​)朝着TD target方向进行调整 证明 我们设TD target为 v ‾ t \overline{v}_t vt​,则 最下面这个式子表示由 v t ( s t ) v_t(s_t) vt​(st​)变成 v t 1 ( s t ) v_{t1}(s_t) vt1​(st​)会缩短和 v ‾ t \overline{v}_t vt​的距离即越来越靠近 v ‾ t \overline{v}_t vt​所以TD算法就是为了让 v t ( s t ) v_t(s_t) vt​(st​)朝着TD target方向进行调整 TD error表示什么意思呢 首先他表示了两个不同时间之间的差异因为 v s t v_{s_t} vst​​表示t时间 v s t 1 v_{s_{t1}} vst1​​表示t1的时间,这也是为什么叫做时序差分算法的原因。 其次他表示一种革新我们的 v t ( s t ) v_t(s_t) vt​(st​)是一种估计值但只这种估计可能是不准确的,这时候我们将其与新的经验 s t s_t st​, r t 1 r_{t1} rt1​, s t 1 s_{t1} st1​进行对比产生了一个误差error然后我们可以用这个error改进我们当前的这个估计。 TD 算法的性质 其本质就是在给定的策略下去估计state value, 并且他有如下的局限性 不能估计action value不能找到最优策略 不过以上两个问题可以通过Sarsa算法以及Q-learning算法得到解决 Sarsa算法 Q-learning算法
http://www.huolong8.cn/news/128720/

相关文章:

  • 建成学校网站上海搬家公司哪家好
  • 海口网站建设介绍新网店怎么免费推广
  • 怎么欣赏一个网站设计图推荐常州模板网站建设
  • 郑州网站优化_郑州网站推广_河南网站建设公司_seo外包顾问服务网页欣赏
  • 专业做网站的公司网页手游排行榜
  • 网站设置右击不了如何查看源代码哪个网站设计素材多
  • 站长工具排行榜政务门户网站建设信息
  • 企业网站建设的基本标准ui设计和前端开发哪个好
  • 昆明网站建设公司网站seo快速排名软件
  • 网站维护的协议同城便民网站开发
  • 建设购物网站的意义外国s网站建设
  • 男男做视频网站wordpress直播播放器
  • 济南做网站个人免费做网站
  • 赣州网站优化制作怎样维护网站
  • 网站平台推广方法wordpress 挖矿脚本
  • 南京建设工程交易中心网站成都网站建设 Vr
  • 招工信息58同城金华网站建设方案优化
  • 六安网站建设网络服务加强网站内容建设的意见
  • 中英语网站制作方法项目外包和人力外包哪个好
  • 免费网站大全推荐泰安网络推广培训
  • 网站宣传推广策划做公司网站找谁
  • 网站百度地图标记代码给别人做网站需要增值电信
  • html网站登陆注册怎么做网站建设落地页
  • 网站维护正常要多久如何免费建设网站com
  • 网站策划ppt企业培训课程安排表
  • 青岛网站搜索排名霸气的网络公司名字
  • 为什么要做网站首页设计电子项目外包网站
  • 制作网站需要哪些工具做视频网站采集需要多大的空间
  • dede网站logo怎么改网站建设crm
  • 佛山网站推广 优帮云凡科网 小程序