阅读背景:

不设目标也能通关「马里奥」的AI算法,全靠好奇心学习

来源:互联网 

在强化学习中,设计密集、定义良好的外部奖励是很困难的,并且通常不可扩展。通常增加内部奖励可以作为对此限制的补偿,OpenAI、CMU 在本研究中更近一步,提出了完全靠内部奖励即好奇心来训练智能体的方法。在 54 个环境上的大规模实验结果表明:内在好奇心目标函数和手工设计的外在奖励高度一致;随机特征也能作为强大的基线。在强化学习中,设计密集、定义良好的外部奖励是很困难的,并且通常不可扩展。通常增加内部奖励




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: