强化学习入门——基于Python(基于Python的数据分析丛书)
定 价:¥49
中 教 价:¥28.42 (5.80折)促销
库 存 数: 16
丛 书 名:基于Python的数据分析丛书
强化学习是机器学习的重要组成部分。本书采用理论与实践相结合的写法,从强化学习的基本概念开始,详细介绍了强化学习的算法理论和实践操作,配有Python代码实现,完整呈现强化学习算法的实践细节。通过这本书你将会:(1)理解强化学习最关键方面的问题。(2)探索马尔可夫决策过程及动态规划的过程。(3)深入理解强化学习的各种方法,包括MC方法,TD方法,深度学习Q方法,SARSA方法等。(4)通过大量的现实例子及Python实现程序,不断地实践,成为强化学习的高手。
第一部分 强化学习基础与实践第1章引 言1.1 从迷宫问题谈起1.1.1 人类和动物所面对的迷宫问题1.1.2 迷宫的说明性例子1.1.3 例1.1: 奖励矩阵1.1.4 例1.1: 训练以得到关于状态和行动的奖励: Q矩阵1.1.5 例1.1: 使用Q矩阵来得到最优行动(路径)1.1.6 例1.1: 把代码组合成 class1.2 热身: 井字游戏*1.2.1 两个真人的简单井字游戏1.2.2 人和机器的井字游戏的强化学习实践1.2.3 井字游戏的强化学习代码解释1.2.4 整个训练过程1.2.5 使用训练后的模型做人机游戏1.2.6 1.2.1节代码1.2.7 附录: 1.2.3节人和机器的井字游戏代码1.3 强化学习的基本概念1.4 马尔可夫决策过程的要素1.5 作为目标的奖励1.6 探索与开发的权衡1.6.1 探索与开发1.6.2 强化学习中的优化和其他学科的区别1.7 本书将会讨论和运算的一些例子1.7.1 例1.3格子路径问题1.7.2 例1.4出租车问题1.7.3 例1.5推车杆问题1.7.4 例1.6倒立摆问题1.7.5 例1.7多臂老虎机问题1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的区别第2章马尔可夫决策过程和动态规划2.1 马尔可夫决策过程简介2.1.1 马尔可夫性2.1.2 策略2.1.3 作为回报期望的价值函数2.1.4 通过例 1.3 格子路径问题理解本节概念2.2 动态规划2.2.1 动态规划简介2.2.2 Bellman方程2.2.3 最优策略和最优价值函数2.3 强化学习基本方法概述2.3.1 代理与环境的互动2.3.2 策略迭代: 策略评估和策略改进2.3.3 价值迭代2.3.4 策略迭代与价值迭代比较2.3.5 异步动态规划2.3.6 广义策略迭代2.3.7 策略梯度2.3.8 off-policy, on-policy和offline RL2.4 蒙特卡罗抽样2.4.1 MC策略评估2.4.2 MC状态-行动值的估计2.4.3 on-policy: Q价值的MC估计2.4.4 off-policy: MC预测2.4.5 MC的策略梯度2.5 和本章概念相关的例子2.5.1 例1.3格子路径问题使用Bellman方程做价值迭代2.5.2 例1.3格子路径问题的TD函数第3章各种机器学习算法及实例3.1 暂时差(TD)简介3.1.1 TD、DP和MC算法的比较3.1.2 TD方法的特点3.1.3 TD(0)方法的延伸3.2 TD评估及策略改进3.2.1 SARSA (on-policy)3.2.2 Q学习 (off-policy)3.2.3 加倍Q学习 (off-policy)3.3 函数逼近及深度学习算法3.3.1 基于价值和策略的函数逼近3.3.2 深度Q学习3.3.3 TD: 演员-批评者(AC)架构3.3.4 A2C算法步骤3.3.5 A3C 算法3.3.6 DDPG 算法3.3.7 ES 算法3.3.8 PPO 算法3.3.9 SAC 算法3.4 用第1章的例子理解本章算法3.4.1 例1.3格子路径问题: SARSA3.4.2 例1.4出租车问题: SARSA3.4.3 例1.3格子路径问题: 加倍Q学3.4.4 例1.5推车杆问题: 深度Q学习3.4.5 例1.5推车杆问题: A3C3.4.6 例1.6倒立摆问题: DDPG3.4.7 例1.5推车杆问题: ES3.4.8 例1.5推车杆问题: PP