阅读背景:

深度强化学习(理论篇)—— 从 Critic-only、Actor-only 到 Actor-Critic_TangowL

来源:互联网 

自己第一篇 paper 就是用 MDP 解决资源优化问题,想来那时写个东西真是艰难啊。 彼时倒没想到这个数学工具,如今会这么火,还衍生了新的领域——强化学习。当然现在研究的内容已有了很大拓展。 自己第一篇 paper 就是用 MDP 解决资源优化问题,想来那时写个东西真是艰




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: