Q-Learning是强化学习初期提出的一种较为简单的方法,其核心思想为对每个状态下的每一种行为进行打分,然后根据分数的高低进行选择,接着根据选择此行为后获得的实际奖赏来对打分系统进行更新。传统Q-Learning面对的是有限状态空间、有限动作空间,并且空间大小都足够简单,因此可以维护一张表格来进行存储,即存储状态-动作及相应的分数。 Q-Learning是强化学习初期提出的一种较为简单的方法,其核心思想为对每个状态下的每一
Q-Learning是强化学习初期提出的一种较为简单的方法,其核心思想为对每个状态下的每一种行为进行打分,然后根据分数的高低进行选择,接着根据选择此行为后获得的实际奖赏来对打分系统进行更新。传统Q-Learning面对的是有限状态空间、有限动作空间,并且空间大小都足够简单,因此可以维护一张表格来进行存储,即存储状态-动作及相应的分数。 Q-Learning是强化学习初期提出的一种较为简单的方法,其核心思想为对每个状态下的每一