当前位置: 首页 > news >正文

最大招聘网站重庆设计院

最大招聘网站,重庆设计院,苍南规划建设局网站,温州哪里做网站设计前言#xff1a; 这里结合走迷宫的例子,重点学习一下QLearning迭代更新算法 0,1,2,3,4 是房间#xff0c;之间绿色的是代表可以走过去。 5为出口 可以用下图表示 目录#xff1a; 策略评估 策略改进 迭代算法 走迷宫实现Python 一 策略评估 强化学习最终是为了…前言 这里结合走迷宫的例子,重点学习一下QLearning迭代更新算法 0,1,2,3,4 是房间之间绿色的是代表可以走过去。 5为出口 可以用下图表示 目录 策略评估     策略改进     迭代算法     走迷宫实现Python 一  策略评估 强化学习最终是为了学习好的策略在不同的state 下面根据策略做出最优的action. 对于策略评估我们通过价值函数来度量. 1.1 状态值函数  V T步累积奖赏:      , 折扣累积奖赏:   1.2 状态-动作值函数 Q T步累积奖赏:      , 折扣累积奖赏:   1.3   Bellan 等式展开 状态值函数  V  状态-动作函数Q 二   策略改进 强化学习的目的 尝试各种策略找到值函数最大的策略累积奖赏 2.1 最优策略值函数 由于最优值函数的累积奖赏已经达到最大值,因此可以对Bellman 等式做个改动即对动作求和改为最优 ..1 ...2 则  ...3  最优 状态-动作 Bellman 等式为 三    递推改进方式 原始策略为  改进后策略   改变动作的条件为  ... 四  值迭代算法 4.1  环境变量 Reward 和  QTable 都是矩阵 4.2 迭代过程 当state 为1,Q 函数更新过程 5.3 收敛结果 五    走迷宫实现Python reward 我们用一个矩阵表示 行代表 state 列代表 action 值代表 reward 5.1 Environment.py 实现环境功能 # -*- coding: utf-8 -*-Created on Wed Nov 15 11:12:13 2023author: chengxf2 import numpy as np from enum import Enum#print(Weekday.test.value) 房间 class Room(Enum):room1 1room2 2room3 3room4 4room5 5class Environment():def action_name(self, action):if action 0:name 左elif action 1:name 上elif action 2:name 右else:name 上return namedef __init__(self):self.R np.array([ [-1, -1, -1, -1, 0, -1],[-1, -1, -1, 0, -1, 100],[-1, -1, -1, 0, -1, -1],[-1, 0, 0, -1, 0, -1],[0, -1, -1, 0, -1, 100],[-1, 0, -1, -1, 0, 100]])def step(self, state, action):#即使奖励 在state, 执行action, 转移新的 next_state,得到的即使奖励#print(\n step ,state, action)reward self.R[state, action]next_state action# action 网哪个房间走if action Room.room5.value:done Trueelse:done Falsereturn next_state, reward,done5.1 main.py 实现Agent 功能 # -*- coding: utf-8 -*-Created on Wed Nov 15 11:29:14 2023author: chengxf2 # -*- coding: utf-8 -*-Created on Mon Nov 13 09:39:37 2023author: chengxf2 import numpy as npdef init_state(WORLD_SIZE):S []for i in range(WORLD_SIZE):for j in range(WORLD_SIZE):state [i,j]S.append(state) print(S)# -*- coding: utf-8 -*-Created on Fri Nov 10 16:48:16 2023author: chengxf2 import numpy as np from environment import Environmentclass Agent():def __init__(self,env):self.discount_factor 0.8 #折扣率self.theta 1e-3 #最大偏差self.nS 6 #状态 个数self.nA 6 #动作个数self.Q np.zeros((6,6))self.env envself.episode 500#当前处于的位置,V 累积奖赏def one_step_lookahead(self,env, state, action):#print(\n state :,state, \t action ,action)next_state, reward,done env.step(state, action)maxQ_sa max(self.Q[next_state,:])return next_state, reward, done,maxQ_sadef value_iteration(self, env, state, discount_factor 1.0):#随机选择一个action,但是不能为-1indices np.where(env.R[state] -1)[0]action np.random.choice(indices,1)[0]#print(\n state :,state, \t action ,action)next_state, reward, done,maxQ_sa self.one_step_lookahead(env, state, action)#更新当前的Q值r reward self.discount_factor*maxQ_saself.Q[state,action] int(r)#未达到目标状态走到房间5 执行下一次迭代if done False:self.value_iteration(env, next_state)def learn(self):for n in range(self.episode): #最大迭代次数#随机选择一个状态state np.random.randint(0,self.nS)#必须达到目标状态跳转到出口房间5self.value_iteration(env, state, discount_factor self.discount_factor)#print(\n n ,n)print(self.Q)if __name__ __main__:env Environment()agent Agent(env)agent.learn() 参考 8-QLearning基本原理_哔哩哔哩_bilibili 9-QLearning迭代计算实例_哔哩哔哩_bilibili 10-QLearning效果演示_哔哩哔哩_bilibili
http://www.huolong8.cn/news/275716/

相关文章:

  • 高端网站设计建站豪车网站建设背景
  • 建站工具华为做理财的网站好
  • 专业建站是什么百度快速seo优化
  • 怎么安装网站源码京润珍珠企业网站优化
  • 济南seo外贸网站建设全国劳务分包工程信息
  • 个人网站创建与管理迁西住房和建设管理局网站
  • 网站源码模板三维家3d设计软件免费
  • 上海建设工程质监站网站wordpress去掉标签前缀
  • 淄博网站制作服务推广域名空间都有了怎么做网站
  • 什么网站是最全的无锡百度快速优化排名
  • 做设计及免费素材网站有哪些网站服务器无响应是怎么回事
  • ih5做pc 网站vps的网站打不开
  • 360搜索建站公司牙科医院网站推广方案
  • 外贸买家网站有没有好的网站可以学做头发
  • 朝阳市做网站培训行业网站建设
  • 写作网站官方长沙招聘
  • 长沙市网站推广多少钱网站推广位怎么设置
  • 网站中的人力资源建设郑州启凡网络科技公司
  • 做教育行业网站网站建设需求信息
  • 大人和孩做爰网站重点专业建设网站
  • 小学的门户网站建设wordpress选择幻灯片模版没有用
  • 鄢陵网站建设免费广告素材网
  • 网站开发需要多少钱销售wordpress远程图片不能
  • 梧州市建设局网站普通话的顺口溜6句
  • 网站建设的内容是什么网站建设栏目提纲
  • 有做挂名法人和股东的网站吗企业网站设计建设长春
  • 网站建设简称什么网络营销方式有哪些推广工具
  • 线上企业订单管理系统网站页面设计最好只使用一种颜色避免视觉效果混淆
  • 高端网站建设青岛重庆城市建设档案馆网站
  • 在线音乐网站开发摘要wordpress 极简杂志