阅读背景:

强化学习(四) - 无模型学习(MC、TDL)

来源:互联网 

上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个:一个是策略迭代,一个是值迭代。上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个:




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: