阅读背景:

增强学习笔记 第六章 TD方法

来源:互联网 

TD是一个结合DP和MC之间的方法。TD不需要环境模型,但是又可以bootstrap。

6.1 TD预测6




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: