策略网络和估值网络是强化学习两种重要的方法。强化学习和有监督学习、无监督学习不同,它的学习目标是变化的、不明确的,甚至可能不存在绝对正确的标签。AlphaGo就是结合了策略网络,估值网络和蒙特卡洛搜索树实现对战程序的。 策略网络和估值网络是强化学习两种重要的方法。强化学习和有监督学习、无监督学习不同,它的学习目标是变化
策略网络和估值网络是强化学习两种重要的方法。强化学习和有监督学习、无监督学习不同,它的学习目标是变化的、不明确的,甚至可能不存在绝对正确的标签。AlphaGo就是结合了策略网络,估值网络和蒙特卡洛搜索树实现对战程序的。 策略网络和估值网络是强化学习两种重要的方法。强化学习和有监督学习、无监督学习不同,它的学习目标是变化