2.6.2 强化学习的基本模型