阅读背景:

机器学习工程师 - Udacity 强化学习 Part Five

来源:互联网 

六、时间差分方法

1.给定一个策略,如何估算其值函数?在蒙特卡洛方法中,智能体以阶段形式与环境互动,一个阶段结束后,我们按顺序查看每个状态动作对,如果是首次经历,则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是,只要我们不在阶段之间更改策略,该算法就可以解决预测问题,只要我们运行该算法足够长的时间,就肯定能够获得一个很完美的动作值函数估计结果:1.给定一个策略,如何估算其值函数?在蒙特卡洛方法中,智能体以阶段形式与




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: