
资料内容:
4.5 深度强化学习(DRL)
强化学习 (Reinforcement learning,RL)强调如何基于环境而行动,以取得最大化的预期利益。结合了深
度学习技术后的强化学习更是如虎添翼。这两年广为人知的 AlphaGo 即是深度强化学习的典型应用。深度
强化学习的基础知识可参考:
• Demystifying Deep Reinforcement Learning (中文编译)
• [Mnih2013]
这里,我们使用深度强化学习玩 CartPole(平衡杆)游戏。简单说,我们需要让模型控制杆的左右运动,以
让其一直保持竖直平衡状态。