上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个:一个是策略迭代,一个是值迭代。上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题。具体的做法有两个: 你的当前访问异常,请进行认证后继续阅读剩余内容。 提交