Xinjiang University · School of Mathematics and System Science

强化学习理论与算法研究笔记

Research Notes on Reinforcement Learning: Theory and Algorithms

作者：唐浩云 | 新疆大学数学与系统科学学院

关于本笔记

大家好，我是唐浩云。在学习强化学习的过程中，我整理了这份笔记，记录了从基本概念和一些经典算法（如Q-learning、DQN、Actor-Critic）再到由这些经典算法衍生出来的一些“进阶版”（如DDPG、PPO、SAC）、再到多智能体学习的完整学习路径。笔记涵盖了经典算法的数学推导、前沿方法的核心思想，以及一些重要论文的研读心得。希望这份笔记能帮助到同样在学习强化学习的你。

关键词： 强化学习深度学习多智能体系统

目录 / Contents

基础篇 / Foundations

马尔可夫决策过程、动态规划、蒙特卡洛方法、时序差分学习等经典理论框架的系统性阐述。

包含 MDP、Bellman方程、Q-Learning、SARSA 等核心算法

进阶篇 / Advanced

深度神经网络与强化学习的结合，探讨 DQN、策略梯度、Actor-Critic 的一些变体算法与实践。

涵盖 PPO、SAC、TRPO 等前沿算法

多智能体强化学习 / MARL

多智能体环境下的协作、竞争与混合博弈，研究智能体间的通信、协调与策略演化机制。

包括 QMIX、MADDPG、COMA、CommNet 等多智能体算法

工程实践与部署 / Deployment

从 PyTorch 到 RK3588 的 NPU 部署实战与踩坑记录，包含 ONNX 转 RKNN、工具链与版本对齐要点。

包含 RKNN Toolkit 使用、板子端运行与验证流程

论文研读 / Paper Reading

对强化学习领域经典与前沿论文的深度剖析，理解算法背后的创新思想与技术细节。

精选高影响力论文进行详细解读与评析

作者信息 / About the Author

姓名：唐浩云

单位：新疆大学数学与系统科学学院

个人主页： haoyunt.github.io

兴趣领域：多智能体强化学习、智能博弈论与群体智能

电子邮件： haoyuntang224@163.com