阅读背景:

【David Silver强化学习公开课】-6:Value Function Approximation

来源:互联网 

一、介绍

找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a)。状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价值函数太慢了。而且在遇到没有见过的状态时,表现会很差(缺少泛化能力)。找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: