《强化学习的数学原理》学习总结笔记(包含PPO等补充内容)¶
RL Learning Notes
这是一份面向自学与复习的强化学习数学原理的笔记,主要是笔者在阅读西湖大学赵世钰老师的《强化学习的数学原理》视频课程、书籍后的一些总结,以及一些自己的理解,同时也再次基础上补充了一些书中没有涉及到但对于机器人学习比较重要的内容,如PPO部分。在总结和补充的过程中难免会有些笔误或是理解上的错误,因此请读者见谅。如果觉得总结得不错,欢迎点个star鼓励一下。
开始阅读¶
- 1. Basic Concepts
- 2. State-Value, Action-Value and Bellman Equation
- 3. Optimal State Values and Bellman Optimality Equation
- 4. Value Iteration and Policy Iteration
- 5. Monte Carlo Methods
- 6. Stochastic Approximation
- 7. Temporal-Difference Methods
- 8. Value Function Approximation
- 9. Policy Gradient Methods
- 10. Actor-Critic Methods
- 11. PPO
特色¶
- 公式推导为主,配合简短解释。
- 章节可独立阅读,支持跳转。
- 全站公式由 MathJax 渲染。
链接¶
- 在线阅读: https://himmy-robotics.github.io/RL_Learning_Notes/
- 仓库: https://github.com/Himmy-Robotics/RL_Learning_Notes