强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录
- 强化学习——无模型预测与控制
- 无模型的概念
- 无模型预测
- 蒙特卡洛法
- 基本蒙特卡洛
- 改进增量MC更新算法
- 动态规划(DP)与蒙特卡洛(MC)的区别
- Temporal Difference(TD)学习
- TD和MC的区别
强化学习——无模型预测与控制
无模型的概念
状态转移的概率和相应的奖励都是未知的,需要agent试探,相当于经验主义。agent通过不断地执行action与环境交互,然后得到实际的return,执行N次求其平均值。
无模型预测
蒙特卡洛法
agent在现实中从状态sss通过一个策略与环境进行交互,得到多个轨迹,每个轨迹会得到一个实际的收益Gt=Rt+1+γRt+2+γ2Rt+3+…G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldotsGt=Rt+1+γRt+2+γ2Rt+3+…,对多个轨迹收益进行一个平均,就可以得到在这个策略下面,状态sss的价值vπ(s)=Eπ[Gt∣st=s]v_{\pi}(s)=\mathbb{E}_{ \pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gt∣st=s]。
基本蒙特卡洛
基本蒙特卡洛解析:
① agent通过策略π\piπ与环境交互得到许多轨迹序列(agent通过action不停地和environment交互得到),每个轨迹中的状态都有对应的回报Gt。
② 开始估算v(s),N(s)=0,S(s)=0,t=0
① 在每个 episode 中,如果在时间步 t 状态 s 被访问了,那么
①状态 s 的访问数 N(s)N(s)N(s) 增加 1,
② 状态 s 的总的回报 S(s)S(s)S(s) 增加 GtG_tGt。
③状态 s 的价值可以通过 return 的平均来估计,即 v(s)=S(s)/N(s)v(s)=S(s)/N(s)v(s)=S(s)/N(s)
根据大数定律只要N(s)→∞N_(s) \rightarrow \infinN(s)→∞,v(s)→vπ(s)v(s) \rightarrow v^\pi(s)v(s)→vπ(s)
改进增量MC更新算法
红线公式推导如下
动态规划(DP)与蒙特卡洛(MC)的区别
动态规划(DP)需要考虑到下一次转移的所有状态;蒙特卡洛因为是现实中得到的return,不存在不确定性,所以它下一次转移只可能是一个状态。
Temporal Difference(TD)学习
v(St)←v(St)+1N(St)(Gt−v(St))v\left(S_{t}\right) \leftarrow v\left(S_{t}\right)+\frac{1}{N\left(S_{t}\right)}\left(G_{t}-v\left(S_{t}\right)\right)v(St)←v(St)+N(St)1(Gt−v(St)),其中Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots=R_{t+1}+\gamma G_{t+1}Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1,而由于这是一个确定的真实学习场景所以v(st+1)=E[Gt+1∣st+1=s]=Gt+1v(s_{t+1})=\mathbb{E}\left[G_{t+1} \mid s_{t+1}=s\right]=G_{t+1}v(st+1)=E[Gt+1∣st+1=s]=Gt+1
TD和MC的区别
TD:从不完整的序列开始学习;可以是连续的无终止的状态;利用了马尔科夫性质
MC:整个序列完成之后开始学习;必须有终止;可以不是马尔科夫的环境
总结
以上是生活随笔为你收集整理的强化学习4——无模型预测(蒙特卡洛法和TD法)的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 最优化——单纯形法,单纯形表的求取
- 下一篇:无