阅读背景：

马尔科夫决策过程（MDP）

发表于:2021-06-23

本文根据Udacity课程提炼而成，供自己复习、参考时使用。
马尔科夫决策过程由状态（state：S），奖励（reward：R），动作（action：A）和状态转移矩阵（transform：T）和未来的奖励折扣到现时的转换率（γ）组成。其中每个状态会对应一个奖励，而且这个奖励会随着时间的进行不断更新；状态转移矩阵是固定不变的。决策指的是根据现有的状态和每个状态的奖励信息，综合考虑现时以及以后的奖励采取合适的动作使得总奖励（或者说是效用）最大化。马尔科夫决策过程由状态（state：S

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

asp.net Web API的LDAP身份验证

如何在android中以编程方式启用/禁用蓝牙

走过的路-java源码阅读之路_Forward__的博客

通过t4模板结合XML定义文件生成MVVM中的Model Entity Class 代码

[java面试随录]编程题

为什么在此之前执行任何代码？

Oracle 中如何判断一个字符串是否为数字

JQuery中serialize()、serializeArray()和param()方法示例介绍

springboot使用问题集合

shell中bash通配符详解