强化学习快餐教程(3) - 一条命令搞定atari游戏
通过上节的例子,我们试验出来,就算是像cartpole这样让一个杆子不倒这样的小模型,都不是特别容易搞定的。
那么像太空入侵者这么复杂的问题,建模都建不出来,算法该怎么写?
别急,我们从强化学习的基础来讲起,学习马尔可夫决策过程,了解贝尔曼方程、最优值函数、最优策略及其求解。然后学习动态规划法、蒙特卡洛法、时间差分法、值函数近似法、策略梯度法。再然后我们借用深度学习的武器来武装强化学习算法,我们会学习DQN算法族,讲解2013版的基于Replay Memory的DQN算法,还有2015年增加了Target网络的新DQN算法,还有Double DQN、优先级回放DQN和Dueling DQN,以及PG算法族的DPG,Actor-Critic,DDPG,以及A3C算法等等。
有的同学表示
继续阅读与本文标签相同的文章
上一篇 :
强化学习快餐教程(2) - atari游戏
下一篇 :
块存储支持云化618实战总结
-
阿里云产品夜谈-容器服务交流
2026-05-17栏目: 教程
-
【视频回顾】927小程序繁星计划峰会 · 看完这七大话题 你会更了解阿里小程序
2026-05-17栏目: 教程
-
小程序Serverless重磅发布!开发者只需三步完成小程序上线!
2026-05-17栏目: 教程
-
阿里云重磅发布全域集成解决方案,帮助提升5倍全域集成效率
2026-05-17栏目: 教程
-
Aliyun Serverless VSCode Extension v1.11.0 发布
2026-05-17栏目: 教程
