强化学习快餐教程(3) - 一条命令搞定atari游戏

通过上节的例子，我们试验出来，就算是像cartpole这样让一个杆子不倒这样的小模型，都不是特别容易搞定的。

那么像太空入侵者这么复杂的问题，建模都建不出来，算法该怎么写？

别急，我们从强化学习的基础来讲起，学习马尔可夫决策过程，了解贝尔曼方程、最优值函数、最优策略及其求解。然后学习动态规划法、蒙特卡洛法、时间差分法、值函数近似法、策略梯度法。再然后我们借用深度学习的武器来武装强化学习算法，我们会学习DQN算法族，讲解2013版的基于Replay Memory的DQN算法，还有2015年增加了Target网络的新DQN算法，还有Double DQN、优先级回放DQN和Dueling DQN，以及PG算法族的DPG，Actor-Critic，DDPG，以及A3C算法等等。