阅读背景:

几句话总结一个算法之Policy Gradients

来源:互联网 

 

  • 强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: