阅读背景:

4. 免模型策略改进——蒙特卡洛(Monte-Carlo)和时序差分(Temporal-Difference)

来源:互联网 

针对马尔科夫模型不完全已知,即转移概率未知,不能全概率展开的情况,上一篇介绍了策略评估的方法,这一篇对应介绍策略改进的方法,分别是针对马尔科夫模型不完全已知,即转移概率未知,不能全概率展开的情况,上一篇介绍了策略评估的方法,




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: