当前位置: 首页 > news >正文

深圳营销型网站建设服务深圳极速网站建设费用

深圳营销型网站建设服务,深圳极速网站建设费用,优化网站做内链接,wordpress建站 防攻击文章目录 一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略#xff08;Policy#xff09;4、马尔可夫决策过程5、强化学习的目标函数6、值函数7、深度强化学习 二、基于值函数的学习方法 一、强化学习问题 强化学习的基本任务是通过智能体与环境的交互学习一个策略… 文章目录 一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略Policy4、马尔可夫决策过程5、强化学习的目标函数6、值函数7、深度强化学习 二、基于值函数的学习方法 一、强化学习问题 强化学习的基本任务是通过智能体与环境的交互学习一个策略使得智能体能够在不同的状态下做出最优的动作以最大化累积奖励。这种学习过程涉及到智能体根据当前状态选择动作环境根据智能体的动作转移状态并提供即时奖励的循环过程。 1、交互的对象 在强化学习中有两个可以进行交互的对象智能体和环境 智能体Agent能感知外部环境的状态State和获得的奖励Reward并做出决策Action。智能体的决策和学习功能使其能够根据状态选择不同的动作学习通过获得的奖励来调整策略。 环境Environment是智能体外部的所有事物对智能体的动作做出响应改变状态并反馈相应的奖励。 2、强化学习的基本要素 强化学习涉及到智能体与环境的交互其基本要素包括状态、动作、策略、状态转移概率和即时奖励。 状态State对环境的描述可能是离散或连续的。 动作Action智能体的行为也可以是离散或连续的。 策略Policy智能体根据当前状态选择动作的概率分布。 状态转移概率State Transition Probability在给定状态和动作的情况下环境转移到下一个状态的概率。 即时奖励Immediate Reward智能体在执行动作后环境反馈的奖励。 3、策略Policy 策略Policy就是智能体如何根据环境状态 来决定下一步的动作 智能体在特定状态下选择动作的规则或分布。 确定性策略Deterministic Policy 直接指定智能体应该采取的具体动作随机性策略Stochastic Policy 则考虑了动作的概率分布增加了对不同动作的探索。 上述概念可详细参照【深度学习】强化学习一强化学习定义 4、马尔可夫决策过程 为了简化描述将智能体与环境的交互看作离散的时间序列。智能体从感知到的初始环境 s 0 s_0 s0​ 开始然后决定做一个相应的动作 a 0 a_0 a0​环境相应地发生改变到新的状态 s 1 s_1 s1​并反馈给智能体一个即时奖励 r 1 r_1 r1​然后智能体又根据状态 s 1 s_1 s1​做一个动作 a 1 a_1 a1​环境相应改变为 s 2 s_2 s2​并反馈奖励 r 2 r_2 r2​。这样的交互可以一直进行下去 s 0 , a 0 , s 1 , r 1 , a 1 , … , s t − 1 , r t − 1 , a t − 1 , s t , r t , … , s_0, a_0, s_1, r_1, a_1, \ldots, s_{t-1}, r_{t-1}, a_{t-1}, s_t, r_t, \ldots, s0​,a0​,s1​,r1​,a1​,…,st−1​,rt−1​,at−1​,st​,rt​,…,其中 r t r ( s t − 1 , a t − 1 , s t ) r_t r(s_{t-1}, a_{t-1}, s_t) rt​r(st−1​,at−1​,st​) 是第 t t t 时刻的即时奖励。这个交互过程可以被视为一个马尔可夫决策过程Markov Decision ProcessMDP。 关于马尔可夫决策过程可详细参照【深度学习】强化学习二马尔可夫决策过程 5、强化学习的目标函数 强化学习的目标是通过学习一个良好的策略来使智能体在与环境的交互中获得尽可能多的平均回报。强化学习的目标函数 J ( θ ) J(\theta) J(θ) 定义如下 J ( θ ) E τ ∼ p θ ( τ ) [ G ( τ ) ] E τ ∼ p θ ( τ ) [ ∑ t 0 T − 1 γ t r t 1 ] J(\theta) \mathbb{E}_{\tau \sim p_{\theta}(\tau)}[G(\tau)] \mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t0}^{T-1} \gamma^t r_{t1}\right] J(θ)Eτ∼pθ​(τ)​[G(τ)]Eτ∼pθ​(τ)​[t0∑T−1​γtrt1​]其中 θ \theta θ 表示策略函数的参数 τ \tau τ 表示强化学习的轨迹 γ \gamma γ 是折扣率…… 这个目标函数表达的是在策略 π θ \pi_{\theta} πθ​ 下智能体与环境交互得到的总回报的期望。这个期望是对所有可能的轨迹进行的 总回报Total Return是对一个轨迹的累积奖励引入折扣率Discount Factor来平衡短期和长期回报。 总回报对于一次交互过程的轨迹总回报是累积奖励的和。折扣回报引入折扣率考虑未来奖励的权重。 关于目标函数可详细参照【深度学习】强化学习三强化学习的目标函数 6、值函数 在强化学习中为了评估策略 π \pi π 的期望回报引入了值函数的概念包括状态值函数和状态-动作值函数。   值函数在强化学习中起到了桥梁的作用连接了策略、状态和动作的关系。它们是智能体学习和改进的核心工具使其能够在未知环境中获得最大的累积奖励。 状态值函数 V ( s ) V(s) V(s)表示从状态 s s s 开始执行策略得到的期望总回报。 状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a)表示在状态 s s s 下执行动作 a a a 并执行策略得到的期望总回报。 【深度学习】强化学习四强化学习的值函数 7、深度强化学习 【深度学习】强化学习五深度强化学习 二、基于值函数的学习方法
http://www.huolong8.cn/news/384627/

相关文章:

  • 企业网站制作前期需要什么资料wordpress 分割线
  • miit网站备案wordpress情侣博客
  • iis网站目录在哪济阳建设局网站
  • tp框架做商城网站怎么用缓存wordpress 标签云插件
  • 徐州市铜山新区建设局网站长沙有哪些推广平台
  • dedecms做自适应网站led设计网站建设
  • 用vs2010做网站登入制作软件的公司有哪些
  • 活动汪活动策划网站关于美食网站的问卷调查怎么做
  • 郑州大型网站seo网站描述
  • 无锡做网站f7wl做网站投资太大 网站也没搞起来
  • 钓鱼网站制作者wordpress插件音乐
  • 特色专业建设展示网站温州市城乡建设信息港
  • 如何建立微信公众号怎么申请如何做好网站针对搜索引擎的seo
  • 动易初级中学网站模板cms 6.8网页样式库
  • 网站建设怎么翻译固始县网站建设培训
  • 天猫网站左侧导航是怎么做的注册网站乱填邮箱
  • 高大上网站设计小程序收录wordpress主题
  • 信息化建设办公室网站wordpress 附件加密
  • 黄冈地区免费网站推广平台网站推广优化教程
  • 百度信息流网站可以做落地页吗seo3
  • 软件下载网站排行榜服务器网站搬家
  • 公司建一个网站吗网站开发的背景的讲解
  • php网站开发框架网站开发json解析
  • 网站栏目结构公司招聘做哪家网站
  • 找网站设计莱州市网站
  • 网站推广要点 优帮云食品公司
  • 一元云购网站建设教程湘潭今天刚刚发生的新闻
  • 网站建设 技术方案模板推广网站建设产品介绍
  • 公司网站开发流程在线小游戏网页版
  • html5响应式网站源码怎样在手机做自己的网站6