首页 > 其他分享> 文章详细

2021-10-23

2021-10-23 22:34:38 阅读：139 来源： 互联网

标签：10 实体状态过程 23 马尔科夫决策 2021 MDPs

《强化学习篇之马尔科夫决策过程》

文章目录

《强化学习篇之马尔科夫决策过程》
前言

前言

强化学习是机器学习的领域之一，其重点是给定的主体在一个环境中，为了获得更大的回报，可能采取的行动。而马尔科夫决策过程是强化学习的基础，其为我们提供了一种形式化的方法——顺序决策。

提示：本系列文章为学习强化学习过程中的笔记梳理，欢迎指正！

一、马尔科夫决策过程（MDPs）是什么？

马尔科夫决策过程全称 markov decision processes，简称MDPs，

1.马尔科夫的由来

马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)

在这里插入图片描述
“马尔可夫”通常意味着在当前状态下，未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。

2.MDPs基本内容：

Environment ：交互的环境
Agent：实体决策者
States：所有的可能的环境状态
Actions：实体可以在环境中执行的所有操作
Rewards：实体与环境交互可以从中获得的所有奖励

3.MDPs：

在MDPs中，一个实体决策者与其放置的环境交互，随着时间的推移，相互作用会依次发生。在每一个时间步，实体将获得环境状态的一些表示，然后实体选择要执行的操作，环境随此转换成某种新状态，实体从中得到相应奖励。

在这里插入图片描述
上图很好的说明了马尔科夫决策过程的思想，从给定状态中选择动作的，过渡到新的状态并获得奖励，一次一次的连续发生，形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明：

在这里插入图片描述

第一步：在时间t，环境处于状态s_t；
第二步：实体观察当前状态，并选择行动A_t；
第三步：环境转换到状态s_t+1，并授予实体奖励R_t+1；
第四步：以上过程在下一时间步重新开始。

二、马尔科夫决策过程（MDPs）数学表示

在一个MDP中，有一系列的状态 S，一系列的动作 A，一系列的奖励 R。假设这些集合都是有限的，有有限个元素。在时间 t，实体接收环境状态报告S_t,S_t属于状态集合 S。基于该状态，实体选择一个动作A_t，A_t属于状态集合 A。基于这个动作得到状态动作对（S_t,A_t），然后进入下一时间步 t+1，环境也进入新的状态 S_t+1，其也属于属于状态集合 S，并收到奖励 R_t+1，R_t+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数，即 f(S_t,A_t)=R_t+1。

标签：10,实体,状态,过程,23,马尔科夫,决策,2021,MDPs
来源： https://blog.csdn.net/weixin_47927764/article/details/120925395

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9