阅读背景:

强化学习基本方法(二)

来源:互联网 

2.2.状态-动作收益评价函数

之前的讨论里面只提到了状态的转化,然而实际情况可能更加复杂,第一:应用在状态上的不同动作其价值本来就是不同的,这也值得我们加入考虑的范围。比如花枯萎的时候,我得去挑水来浇花,这时候我要付出劳动力的,这个动作的收益可以设置为-100,我也可以选择不管,虽然花会死,但是“不管”这个动作的收益可是0,要是花不怎么值钱,我还是任由它死掉算了嘿嘿嘿。第二:不同的动作也会影响状态转移的概率分布,拿前面的例子来说,浇水总比不管让花活下来的几率更大的。 之前的讨论里面只提到了状态的转化,然而实际情况可




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: