作者: [俄] 马克西姆·拉潘(Maxim Lapan)
出版社: 机械工业出版社
出版年: 2021-08
ISBN: 9787111687382
~~滚到底部有网盘下载链接~~
内容简介
本书的主题是强化学习(Reinforcement Learning,RL),它是机器学习(Machine Learning,ML)的一个分支,强调如何解决在复杂环境中选择最优动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。
马克西姆·拉潘(Maxim Lapan),是一位深度学习爱好者和独立研究者。作为一名软件开发人员和系统架构师,他拥有15年的工作经验,涉及从底层Linux内核驱动程序开发到性能优化以及在数千台服务器上工作的分布式应用程序设计的方方面面。他在大数据、机器学习以及大型并行分布式HPC和非HPC系统方面也拥有丰富的经验,能够用简单的词汇和生动的示例来解释复杂的事物。他目前感兴趣的领域涉及深度学习的实际应用,例如深度自然语言处理和深度强化学习。马克西姆与家人一起住在俄罗斯莫斯科。
马克西姆·拉潘(Maxim Lapan),是一位深度学习爱好者和独立研究者。作为一名软件开发人员和系统架构师,他拥有15年的工作经验,涉及从底层Linux内核驱动程序开发到性能优化以及在数千台服务器上工作的分布式应用程序设计的方方面面。他在大数据、机器学习以及大型并行分布式HPC和非HPC系统方面也拥有丰富的经验,能够用简单的词汇和生动的示例来解释复杂的事物。他目前感兴趣的领域涉及深度学习的实际应用,例如深度自然语言处理和深度强化学习。马克西姆与家人一起住在俄罗斯莫斯科。
目录
译者序
前言
作者简介
审校者简介
第1章 什么是强化学习
第2章 OpenAI Gym
第3章 使用PyTorch进行深度学习
第4章 交叉熵方法
第5章 表格学习和Bellman方程
第6章 深度Q-network
第7章 高级强化学习库
第8章 DQN扩展
第9章 加速强化学习训练的方法
第10章 使用强化学习进行股票交易
第11章 策略梯度:一种替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用强化学习训练聊天机器人
第15章 TextWorld环境
第16章 Web导航
第17章 连续动作空间
第18章 机器人技术中的强化学习
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 强化学习中的黑盒优化
第21章 高级探索
第22章 超越无模型方法:想象力
第23章 AlphaGo Zero
第24章 离散优化中的强化学习
第25章 多智能体强化学习
前言
作者简介
审校者简介
第1章 什么是强化学习
第2章 OpenAI Gym
第3章 使用PyTorch进行深度学习
第4章 交叉熵方法
第5章 表格学习和Bellman方程
第6章 深度Q-network
第7章 高级强化学习库
第8章 DQN扩展
第9章 加速强化学习训练的方法
第10章 使用强化学习进行股票交易
第11章 策略梯度:一种替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用强化学习训练聊天机器人
第15章 TextWorld环境
第16章 Web导航
第17章 连续动作空间
第18章 机器人技术中的强化学习
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 强化学习中的黑盒优化
第21章 高级探索
第22章 超越无模型方法:想象力
第23章 AlphaGo Zero
第24章 离散优化中的强化学习
第25章 多智能体强化学习