Python知识分享网 - 专业的Python学习网站 学Python,上Python222
从0到1:DQN强化学习算法与Python实战揭秘 PDF 下载
匿名网友发布于:2025-09-29 08:18:04
(侵权举报)
(假如点击没反应,多刷新两次就OK!)

从0到1:DQN强化学习算法与Python实战揭秘 PDF 下载 图1

 

 

资料内容:

 

(一)Q - learning 核心原理
Q - learning 是一种基于值函数的强化学习算法 ,在强化学习领域占据着举足轻重的地位,是理解和
掌握其他复杂强化学习算法的基础。它的核心是学习一个动作价值函数 Q (s, a),这个函数表示在状态
 s 下采取动作 a 后,智能体所能获得的期望累积奖励。Q 值代表了在给定状态下采取该动作的长期价值
,智能体的目标就是通过不断学习,找到每个状态下 Q 值最大的动作,从而形成最优策略。
Q - learning 的更新过程基于贝尔曼方程(Bellman Equation),其更新公式如下:
Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]
在这个公式中:
◦ \alpha 是学习率(Learning Rate),取值范围通常在 0 到 1 之间 ,它控制着每次更新 Q 值时学习的
步长。如果 \alpha 取值较大,智能体更倾向于学习新的经验,对新信息的反应迅速,但可能会导致学
习过程不稳定,容易受到噪声的影响;若 \alpha 取值较小,Q 值的更新较为缓慢和稳定,不过学习速
度会变慢,可能需要更多的训练次数才能收敛 。例如,在一个简单的迷宫探索任务中,当 \alpha = 0.
9 时,智能体在遇到新的路径时,会迅速调整 Q 值,快速尝试新的路线;而当 \alpha = 0.1 时,智能体
对新路径的学习较为谨慎,更依赖之前积累的经验。
◦ \gamma 为折扣因子(Discount Factor),同样取值于 0 到 1 之间,它用于衡量未来奖励的当前价值
,反映了智能体对未来奖励的重视程度。当 \gamma 越接近 1 ,表示智能体更看重未来的奖励,会着
眼于长期利益,追求长远的最优策略;当 \gamma 越接近 0 ,智能体则更关注眼前的即时奖励,更注
重短期的收益。比如在投资决策场景中,若 \gamma = 0.95 ,投资者会更考虑未来资产的增值潜力;
若 \gamma = 0.1 ,投资者可能更关注当下的即时回报。
◦ r 表示即时奖励(Immediate Reward),是智能体在执行动作 a 后从环境中获得的直接反馈,这个奖
励信号直接反映了当前动作的好坏程度。例如在游戏中,成功消灭敌人获得的积分、完成任务获得的
道具等都是即时奖励。
◦ s' 代表下一个状态(Next State),即智能体执行动作 a 后,环境转移到的新状态。
◦ \max_{a'} Q(s',a') 表示在新状态 s' 下,所有可能动作中 Q 值的最大值,它代表了智能体在下一状态下
预计能获得的最大未来回报,体现了智能体对未来最优决策的预期。