阅读背景：

机器学习工程师 - Udacity 强化学习 Part Five

发表于:2021-06-29

六、时间差分方法

1.给定一个策略，如何估算其值函数？在蒙特卡洛方法中，智能体以阶段形式与环境互动，一个阶段结束后，我们按顺序查看每个状态动作对，如果是首次经历，则计算相应的回报并使用它来更新动作值。我们经历了很多很多个阶段。需要注意的是，只要我们不在阶段之间更改策略，该算法就可以解决预测问题，只要我们运行该算法足够长的时间，就肯定能够获得一个很完美的动作值函数估计结果：1.给定一个策略，如何估算其值函数？在蒙特卡洛方法中，智能体以阶段形式与

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

hbuilder入门之基本配置(php)_铁柱的博客_怎样在hbuilder中运行php

ASP.NET MVC 同一view返回多个Model或数据集的方法

SSL/TLS协议详解(中)——证书颁发机构

SaltStack之无Master和多Master（九）

编译时间回归?

【Spring记录】Error resolving template [hello], template might not exist or might not be accessible_二十四桥仍在

史上最牛B的女预言家--杨志红！

初等矩阵左乘右乘与初等变换_lllllalzh的博客_初等矩阵左乘和右乘的区别

配置Nginx，完善Nginx启动脚本

使用iOS原生类计算两个坐标点之间的距离