阅读背景:

强化学习中的无模型 基于值函数的 Q-Learning 和 Sarsa 学习

来源:互联网 

强化学习基础:

 

 

 

注:

在强化学习中  奖励函数和状态转移函数都是未知的,之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数,然后将强化学习问题转换为可以使用动态规划求解的已知模型问题。在强化学习中 




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: