阅读背景:

Reinforcement Learning:An Inteoduction第二章读书笔记

来源:互联网 
这几种平衡exploration和exploitation的方法还远远没达到要求。对于多臂赌博机问题一个比较好的方法是计算特殊函数这几种平衡exploration和exploitation的方法还远远没达到要求。对于多臂赌博机问题


你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: