本文根据Udacity课程提炼而成,供自己复习、参考时使用。
马尔科夫决策过程由状态(state:S),奖励(reward:R),动作(action:A)和状态转移矩阵(transform:T)和未来的奖励折扣到现时的转换率(γ)组成。其中每个状态会对应一个奖励,而且这个奖励会随着时间的进行不断更新;状态转移矩阵是固定不变的。决策指的是根据现有的状态和每个状态的奖励信息,综合考虑现时以及以后的奖励采取合适的动作使得总奖励(或者说是效用)最大化。 马尔科夫决策过程由状态(state:S
本文根据Udacity课程提炼而成,供自己复习、参考时使用。
马尔科夫决策过程由状态(state:S),奖励(reward:R),动作(action:A)和状态转移矩阵(transform:T)和未来的奖励折扣到现时的转换率(γ)组成。其中每个状态会对应一个奖励,而且这个奖励会随着时间的进行不断更新;状态转移矩阵是固定不变的。决策指的是根据现有的状态和每个状态的奖励信息,综合考虑现时以及以后的奖励采取合适的动作使得总奖励(或者说是效用)最大化。 马尔科夫决策过程由状态(state:S