阅读背景：

强化学习基本方法(二)

发表于:2021-03-12

2.2.状态-动作收益评价函数

之前的讨论里面只提到了状态的转化，然而实际情况可能更加复杂，第一：应用在状态上的不同动作其价值本来就是不同的，这也值得我们加入考虑的范围。比如花枯萎的时候，我得去挑水来浇花，这时候我要付出劳动力的，这个动作的收益可以设置为-100，我也可以选择不管，虽然花会死，但是“不管”这个动作的收益可是0，要是花不怎么值钱，我还是任由它死掉算了嘿嘿嘿。第二：不同的动作也会影响状态转移的概率分布，拿前面的例子来说，浇水总比不管让花活下来的几率更大的。之前的讨论里面只提到了状态的转化，然而实际情况可

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

我想申请一个域名，在搞个网站，赚点零花钱，请问我该如何操作，给点意见

Linux命令行下安装Maven与配置

以角度动态加载材质主题

Aso.Net Core 的配置系统Configuration

延迟，setTimeout - 如何做点击延迟2件事？

Python - 在一个标签中打印组合框值

-fembed-bitcode is not supported on versions of iOS prior to 6.0 iOS_ws1836300的博客

Linux(Red Hat)下在命令行模式安装图形界面的方法

Tomcat并发，多线程，怎么处理同一个链接（映射到同一个方法），是开两个线程等待？还是同步（这样是不是就不安全了）？？

基于开源软件构建高性能集群NAS系统

相关阅读:

Android Edittext 显示光标获取焦点监听焦点

探秘Kubernetes：在本地环境中玩转容器技术

00_『复用』是什么

00 爬虫概念

内存不足导致OpenStack进程异常的诊断和思考

容器镜像加速指南：探索 Kubernetes 缓存最佳实践

[置顶] （二十七）unity4.6学习Ugui中文文档-------Unity3D UI (uGUI)窗口扩展

[置顶] （二十七）unity4.6学习Ugui中文文档-------Unity3D UI (uGUI)窗口扩展

java高级基础之相关概念00

A/B实验在字节跳动推荐系统中的应用与实践

随便看看:

新功能：阿里云负载均衡SLB支持HTTPS虚拟主机功能（SNI）

Android Edittext 显示光标获取焦点监听焦点

Unity5 Assetbundle简单使用及打包Material文件超大的问题

云计算 - 以阿里云为例，企业上云策略全览与最佳实践

Window部署Oracle并实现公网环境远程访问本地数据库

“AI 程序员”席卷而来，吴恩达四步设计让 Agent 提前超越 GPT-5

\u4e00是什么字符

缓存中常见的一些问题

Nginx入门详解

大量数据如何做分页处理