一、前言
在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中。在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、rewa
在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中。在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、rewa