5. Monte Carlo Methods¶

从本章起，开始介绍Model free的强化学习方法。没有模型 → 必须有数据（经验样本）。 用样本均值近似期望值来替代模型计算。

5.1. MC估计的定义：¶

对于随机变量X，估计其期望值\(\mathbb{E}[X]\):

有模型时直接根据期望的定义给出：

\[ \mathbb{E}[X] = \sum_{x \in \mathcal{X}} p(x)x. \]

无模型时根据根据MC估计（大数定理保证n趋于无穷时估计的准确性）：

\[ \mathbb{E}[X] \approx \bar{x} = \frac{1}{n} \sum_{j=1}^{n} x_j. \]

5.2. MC方法在强化学习中的应用：¶

5.2.1. MC basic:¶

将策略迭代中有模型的策略评估替换为无模型的MC估计,直接估算action value。

\[ q_{\pi_k}(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a] \approx \frac{1}{n} \sum_{i=1}^{n} g_{\pi_k}^{(i)}(s, a) \]

对每个 \((s, a)\)，收集足够多的episode，用回报均值近似 \(q_{\pi_k}(s, a)\)。

5.2.2. MC Exploring Starts:¶

增加样本利用效率：使用Every-visit，每个 \((s, a)\) 每次出现时都用后续轨迹估计（样本效率最高，但样本有相关性）。
策略更新频率：不等所有episode收集完，每收到一个episode就立即更新（广义策略迭代思想）。

5.2.3. MC ε-Greedy:¶

将policy take action的过程从Greedy改为ε-Greedy，软策略保证每个\((s, a)\)都有正概率被访问 → 足够长的单条episode即可覆盖所有状态-动作对。

ε-Greedy policy:

\[ \pi(a|s) = \begin{cases} 1 - \frac{\epsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)| - 1), & a = a^* \\ \frac{\epsilon}{|\mathcal{A}(s)|}, & a \neq a^* \end{cases} \]

收敛性：收敛到ε-greedy策略集合中的最优策略，但未必是全局最优。ε足够小时接近全局最优。

‍