Xinjiang University · School of Mathematics and System Science

强化学习理论与算法研究笔记

Research Notes on Reinforcement Learning: Theory and Algorithms
作者:唐浩云 | 新疆大学数学与系统科学学院
关于本笔记

大家好,我是唐浩云。在学习强化学习的过程中,我整理了这份笔记,记录了从基本概念和一些经典算法(如Q-learning、DQN、Actor-Critic)再到由这些经典算法衍生出来的一些“进阶版”(如DDPG、PPO、SAC)、再到多智能体学习的完整学习路径。笔记涵盖了经典算法的数学推导、前沿方法的核心思想, 以及一些重要论文的研读心得。希望这份笔记能帮助到同样在学习强化学习的你。

关键词: 强化学习 深度学习 多智能体系统

目录 / Contents

SECTION I
基础篇 / Foundations
马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习等经典理论框架的系统性阐述。
包含 MDP、Bellman方程、Q-Learning、SARSA 等核心算法
SECTION II
进阶篇 / Advanced
深度神经网络与强化学习的结合,探讨 DQN、策略梯度、Actor-Critic 的一些变体算法与实践。
涵盖 PPO、SAC、TRPO 等前沿算法
SECTION III
多智能体强化学习 / MARL
多智能体环境下的协作、竞争与混合博弈,研究智能体间的通信、协调与策略演化机制。
包括 QMIX、MADDPG、COMA、CommNet 等多智能体算法
SECTION IV
工程实践与部署 / Deployment
从 PyTorch 到 RK3588 的 NPU 部署实战与踩坑记录,包含 ONNX 转 RKNN、工具链与版本对齐要点。
包含 RKNN Toolkit 使用、板子端运行与验证流程
SECTION IV
论文研读 / Paper Reading
对强化学习领域经典与前沿论文的深度剖析,理解算法背后的创新思想与技术细节。
精选高影响力论文进行详细解读与评析
作者信息 / About the Author
姓名: 唐浩云
单位: 新疆大学数学与系统科学学院
个人主页: haoyunt.github.io
兴趣领域: 多智能体强化学习、智能博弈论与群体智能
电子邮件: haoyuntang224@163.com