本章首先引入了强化学习中的一些基本概念,然后介绍了基于值函数的强化学习方法,叙述了值函数的理论和DQN,之后介绍了基于策略梯度的强化学习方法,叙述了策略梯度的理论以及AC、DDPG和A3C三种方法,最后以赛车游戏为例介绍如何使用A3C进行自动化测试。
在kindle搜索B089Y7R3XM可直接购买阅读