首页 > 其他分享> 文章详细

强化学习笔记（二）

2021-08-18 13:30:00 阅读：269 来源： 互联网

标签：状态函数马尔科夫笔记学习奖励强化价值过程

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、强化学习概述
二、马尔科夫决策过程

前言

提示：这里可以添加本文要记录的大概内容：
例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、强化学习概述

1.1 强化学习概述

通过从交互中学习来实现目标的计算方法
在这里插入图片描述三个方面：
1.感知：在某种程度上感知环境的状态
2.行动：可以采取行动来影响状态或者达到目标
3.目标：随着时间推移最大化累计奖励

强化学习交互过程：
在这里插入图片描述
历史是观察、行动和奖励的序列。
如下：

状态（state）：一种用于确定接下来会发生的事情（行动，观察，奖励）
状态是关于历史的函数：
策略（Policy）是学习智能体在特定时间的行为方式
是从状态到行动的映射
在这里插入图片描述
奖励（Reward）:强化学习目标的标量

价值函数（Value Function）
状态价值是一个标量，用于定义对于长期来说是好的
价值函数是对于未来累计奖励的预测
用于评估在给定策略下的状态好坏。

在这里插入图片描述

1.2 探索与利用

在这里插入图片描述

2.3 多臂老虎机

在这里插入图片描述收益估计：
1.通过对于某个老虎机臂进行n次动作来得到期望增量实现：
复杂度为o1

算法：
在这里插入图片描述 Regret 函数（懊悔）
total Regret 对于t次懊悔值求期望

可知按照上述策略能够得到对数的收敛

总结：
在这里插入图片描述

补充不同的探索方法
Combining Online and Offline Knowledge in UCT. Sylvain Gelly and David Silver. ICML 2007. Test-of-time award at ICML 2017

第二种算法：积极初始化

在这里插入图片描述第三种：

二、马尔科夫决策过程

2.1 马尔科夫过程（MP）

在一个时序过程中，如果 t + 1 时刻的状态仅取决于 t 时刻的状态 St 而与 t 时刻之前的任何状态都无关时，则认为 t 时刻的状态 St 具有马尔科夫性。

若过程中的每一个状态都具有马尔科夫性，则这个过程具备马尔科夫性。具备了马尔科夫性的随机过程称为马尔科夫过程，又称马尔科夫链 (Markov chain)。

描述一个马尔科夫过程的核心是状态转移概率矩阵：

Pss′ = P [St+1 = s|St = s]

通常使用一个元组 ⟨S, P⟩ 来描述马尔科夫过程，其中 S 是有限数量的状态集，P 是状态转移概率矩阵。
状态转移矩阵如下：
其中每一行代表从某个状态到所有n个状态的转移概率值。（每一行的概率加起来为1）

从符合马尔科夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样（sample）。采样将得到一系列的状态转换过程，本书我们称为状态序列 (episode)。
当状态序列的最后一个状态是终止状态时，该状态序列被称为是完整的状态序列（complete episode）。

2.2 马尔科夫奖励过程（MRP）

如果把奖励考虑进马尔科夫过程，则成为马尔科夫奖励过程（Markov reward process,MRP）
它由一割元组来表示：
⟨S, P, R, γ⟩
在这里插入图片描述收获（return）是一个马尔科夫奖励过程中从某一个状态 St 开始采样直到终止状态时所有
奖励的有衰减的之和。数学表达式如下：
可知收获是对应状态序列中的某一时刻的状态的，计算从该状态开始到结束时所能获得的累计状态。

对于衰减系数：通过该系数使得后续某一状态对当前状态收获的贡献要小与其奖励。（避免计算收获时陷入循环无法求解，同时也反映了远期收获的不确定性，折扣计算）

补充：
1.短视：使得衰减系数=0，即某状态下的收获就是当前状态所获得的的奖励。
2.长远眼光：使得衰减系数=1，考虑所有的后续状态，即不衰减。

价值（value）是马尔科夫奖励过程中状态收获的期望。
数学表达式如下：
在这里插入图片描述具体而言：从该状态开始依据状态转移概率矩阵采样生成一系列的状态序列，对每一个状态序列计算该状态的收获，然后对该状态的所有收获计算平均值得到一个平均收获。

补充：当采样生成的状态序列越多，计算得到的平均收获就越接近该状态的价值，因而价值可以准确地反映某一状态的重要程度。

价值函数：如果存在一个函数，给定一个状态能得到该状态对应的价值，那么该函数就被称为价值函数（value function）。价值函数建立了从状态到价值的映射。

对于计算价值函数：
v(s) = E [Rt+1 + γv(St+1)|St = s]

补充：推导如下：

对于上述公式可改写为如下（每一个状态都有上一个状态概率得到）：
在这里插入图片描述（贝尔曼方程）

补充：它提示一个状态的价值由该状态的奖励以及后续状态价值按概率分布求和按一定的衰减比例联合组成。

转为矩阵形式：
在这里插入图片描述 R为奖励，P为概率矩阵

计算这类问题的时间复杂度是 O(n3)，其中 n 是状态的数量。
（求解逆矩阵大概为On3）

如果知道了每一个状态的价值，那么他就会沿着状态价值最高的方向前进。

2.3 马尔科夫决策过程（MDP）

马尔科夫奖励过程不涉及到个体行为的选择，因此需要引入马尔科夫决策过程。

马尔科夫决策过程（Markov decision process, MDP）是由 ⟨S, A, P, R, γ⟩ 构成的一个元组。
在这里插入图片描述
个体在给定状态下从行为集中选择一个行为的依据则称为策略 (policy)，用字母 π 表示。
策略 π 是某一状态下基于行为集合的一个概率分布：
当给定一个马尔科夫决策过程：M = ⟨S, A, P, R, γ⟩ 和一个策略 π，那么状态序列 S1, S2, . . .是一个符合马尔科夫过程 ⟨S, Pπ⟩ 的采样。

联合状态和奖励的序列 S1, R2, S2, R3, . . . 是一个符合马尔科夫奖励过程 ⟨S, Pπ, Rπ, γ⟩ 的采样。

马尔科夫决策过程中一个策略对应了一个马尔科夫过程和一个马尔科夫奖励过程。

由于不同的策略会产生一个不同的马尔科夫奖励过程与马尔科夫过程。
所以我们在这里扩展之前的价值函数：

价值函数 vπ(s) 是在马尔科夫决策过程下基于策略 π 的状态价值函数，表示从状态 s开始，遵循当前策略 π 时所获得的收获的期望，数学定义如下：
在这里插入图片描述同样对于行为，我们也定义一个行为价值函数qπ(s, a)
(对于当前状态s执行某一行为a所能得到的收获的期望）
类似得到如下两个方程（与之前的推导类似）：

一个状态的价值可以用该状态下所有行为价值来表达：
在这里插入图片描述类似的，一个行为的价值可以用该行为所能到达的后续状态的价值来表达。
得到如下：
对于行为a的价值等于他所有后续状态的价值的概率分布。

解决强化学习问题意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获，这个最优策略用 π∗ 表示。

最优状态价值函数（optimal value function）是所有策略下产生的众多状态价值函数中的最大者：
在这里插入图片描述最优行为价值函数（optimal action-value function）是所有策略下产生的众多行为价值函数中的最大者：
策略 π 优于 π′(π ⩾ π′)，如果对于有限状态集里的任意一个状态 s，不等式：vπ(s) ⩾vπ′(s) 成立。

最优策略可以通过最大化最优行为价值函数 q∗(s, a) 来获得：
在这里插入图片描述由此我们就将求解强化学习问题转变为求解最优行为价值函数的问题。
举例如图：

可知一个状态的最优价值是该状态下所有行为对应的最优行为价值的最大值。

（对于图 2.6 学生示例中的状态“第三节课”，可以选择的行为有“学习”和“泡吧”两个，其对应的最优行为价值分别为 10 和 9.4，因此状态“第三节课”的最优价值就是两者中最大的 10。）

标签：状态,函数,马尔科夫,笔记,学习,奖励,强化,价值,过程
来源： https://blog.csdn.net/weixin_43869415/article/details/119607552

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9