3. Optimal State Values and Bellman Optimality Equation¶

本章介绍关于强化学习中最优Value以及贝尔曼最优公式。

‍

Optimal policy: 考虑策略\(\pi^*\),如果对任意的状态\(s\in\mathcal{S}\)和其他任意策略 \(\pi\),都有 \(v_\pi^*(s)\geqslant v_\pi(s)\),那么 \(\pi^*\)是一个最优策略，并且\(\pi^*\)对应的状态值是最优状态值。

Bellman optimality equation:

\[ \begin{aligned} v(s) & =\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)\left(\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)v(s^{\prime})\right) \\ & =\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)q(s,a), \end{aligned} \]

Bellman optimality equation的解:

始终存在唯一解\(v^*\),该解可以通过如下迭代算法求解：

\[ v_{k+1}=f(v_k)=\max_{\pi\in II}(r_\pi+\gamma P_\pi v_k),\quad k=0,1,2,\ldots \]

对任意给定的\(v_0\),当\(k\to\infty\)时，\(v_k\)和\(\pi_{k}\)以指数收敛到最优的状态值和策略\(v^*,\pi^*\)。

💡由于贝尔曼最优公式满足压缩映射定理，因此其解总是存在，同时该解存在唯一性。

Optimal policy的解：

\[ \pi^*=\arg\max_{\pi\in\Pi}(r_\pi+\gamma P_\pi v^*). \]

‍