强化学习1——策略,价值函数,模型
文章目录
- 强化学习——概述
- 组成
- 策略:行为函数
- 价值函数:状态和行为的得分
- 模型:整个世界的表达
强化学习——概述
组成
策略:行为函数
分为两种:
概率型策略:从策略π\piπ中,按照概率π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(a∣s)=P(at=a∣st=s)采样一个a。
确定型策略:从策略π\piπ中,选择一个最大概率的策略a∗=argmaxaπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a∗=argmaxaπ(a∣s)
价值函数:状态和行为的得分
已知π\piπ的时候能得到多少奖励(期望平均值)
分为两种:
状态价值函数:衡量一个状态的价值(其实是一个状态采取所有行为后的一个价值的期望值)
vπ(s)≐Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s],for all s∈Sv_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right], \text { for all } s \in \mathcal{S}vπ(s)≐Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s], for all s∈S
Q-函数:衡量一个状态采取一个动作后的价值(是强化学习的一个目标,最高的Q-函数值对应的a就是最有策略采取的动作)
qπ(s,a)≐Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]qπ(s,a)≐Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]
模型:整个世界的表达
预测下一个环境(世界,状态)
两部分组成:
1 状态s采取了一个策略a,有多少概率到达s′s^{\prime}s′。
2 状态s采取了一个策略a,能得到多大的奖励
Predict the next state: Pss′a=P[St+1=s′∣St=s,At=a]Predict the next reward: Rsa=E[Rt+1∣St=s,At=a]\begin{aligned} &\text { Predict the next state: } \mathcal{P}_{s s^{\prime}}^{a}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right]\\ &\text { Predict the next reward: } \mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right] \end{aligned} Predict the next state: Pss′a=P[St+1=s′∣St=s,At=a] Predict the next reward: Rsa=E[Rt+1∣St=s,At=a]
总结
以上是生活随笔为你收集整理的强化学习1——策略,价值函数,模型的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 线性规划——规范型,标准型,基阵、基本解
- 下一篇: 最优化——单纯形法学习心得