《强化学习入门》PDF电子书免费下载

作者:  叶强闫维新黎斌

出版社: 机械工业出版社  

出版年:  2020-08

ISBN: 9787111661269

~~滚到底部有网盘下载链接~~

内容简介

目录

前言
致谢
常用数学符号
主要算法列表
第1章 概述
1.1 强化学习的历史
1.2 强化学习的基本概念
1.3 章节组织
1.4 编程环境与代码资源
第2章 从一个示例到马尔可夫决策过程
2.1 马尔可夫过程
2.2 马尔可夫奖励过程
2.3 马尔可夫决策过程
2.4 编程实践:学生马尔可夫决策示例
第3章 动态规划寻找最优策略
3.1 策略评估
3.2 策略迭代
3.3 价值迭代
3.4 异步动态规划算法
3.5 编程实践:动态规划求解小型格子世界最优策略
第4章 不基于模型的预测
4.1 蒙特卡罗强化学习
4.2 时序差分强化学习
4.3 n步时序差分学习
4.4 编程实践:蒙特卡罗学习评估21点游戏的玩家策略
第5章 无模型的控制
5.1 行为价值函数的重要性
5.2 贪婪策略
5.3 同策略蒙特卡罗控制
5.4 同策略时序差分控制
5.5 异策略Q学习算法
5.6 编程实践:蒙特卡罗学习求解21点游戏的最优策略
5.7 编程实践:构建基于gym的有风的格子世界及个体
5.8 编程实践:各类学习算法的实现及与有风的格子世界的交互
第6章 价值函数的近似表示
6.1 价值近似的意义
6.2 目标函数与梯度下降
6.3 常用的近似价值函数
6.4 DQN算法
6.5 编程实践:基于PyTorch实现DQN求解PuckWorld问题
第7章 基于策略梯度的深度强化学习
7.1 基于策略学习的意义
7.2 策略目标函数
7.3 Actor-Critic算法
7.4 深度确定性策略梯度算法
7.5 编程实践:DDPG算法实现
第8章 基于模型的学习和规划
8.1 环境的模型
8.2 整合学习与规划——Dyna算法
8.3 基于模拟的搜索
第9章 探索与利用
9.1 多臂游戏机
9.2 常用的探索方法
第10章 Alpha Zero算法实战
10.1 自博弈中的蒙特卡罗树搜索
10.2 模型评估中的蒙特卡罗搜索
10.3 策略价值网络结构及策略提升
10.4 编程实践:Alpha Zero算法在五子棋上的实现
参考文献

下载价格:免费
立即下载
登入/注册
知识就是力量
没有账号? 忘记密码?