大家好,我是唐浩云。在学习强化学习的过程中,我整理了这份笔记,记录了从基本概念和一些经典算法(如Q-learning、DQN、Actor-Critic)再到由这些经典算法衍生出来的一些“进阶版”(如DDPG、PPO、SAC)、再到多智能体学习的完整学习路径。笔记涵盖了经典算法的数学推导、前沿方法的核心思想, 以及一些重要论文的研读心得。希望这份笔记能帮助到同样在学习强化学习的你。