阅读背景：

不设目标也能通关「马里奥」的AI算法，全靠好奇心学习

发表于:2020-11-12

在强化学习中，设计密集、定义良好的外部奖励是很困难的，并且通常不可扩展。通常增加内部奖励可以作为对此限制的补偿，OpenAI、CMU 在本研究中更近一步，提出了完全靠内部奖励即好奇心来训练智能体的方法。在 54 个环境上的大规模实验结果表明：内在好奇心目标函数和手工设计的外在奖励高度一致；随机特征也能作为强大的基线。在强化学习中，设计密集、定义良好的外部奖励是很困难的，并且通常不可扩展。通常增加内部奖励

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

字符串操作函数、数学函数

综合案例：使用Configmap-reload动态热加载Configmap中的配置文件（三十七）

【总结】/etc/rc.d/rc.local 与 /etc/profile .bash_profile .bashrc 文件执行顺序

走马观花： Linux 系统调用 open 七日游（二）_xie0812的专栏

组合两个表而不会丢失列或行

Spark Streaming源码解读之Job动态生成和深度思考

LINUX操作系统知识:进程与线程详解

《Linux内核设计与实现》第4章读书笔记

原来在asp.net中也挺好用，就是变量XXX

linux下安装python3.7