ICode9

精准搜索请尝试：精确搜索

Java

PHP

首页 > 其他分享> 文章详细

强化学习：TRPO和PPO背后的数学

2022-01-16 12:32:15 阅读：329 来源： 互联网

标签：策略迭代函数 PPO KL 强化我们 TRPO

TRPO 算法 (Trust Region Policy Optimization)和PPO 算法 (Proximal Policy Optimization)都属于MM(Minorize-Maximizatio)算法。在本文中，我们将介绍基础的MM算法，并且通过几个步骤推导出TRPO和PPO的目标函数。在我们的强化学习系列课程之中( Reinforcement Learning series )，我们将会分别学习不同的主题的内容。但是在本文之中，我们将会展示更多的数学细节给这些好奇的、想了解这些目标函数背后原因的读者们。

Surrogate function(替代函数)

RL( Reinforcement Learning即强化学习) 的目标就是最大化预期折扣奖励(the expected discounted rewards)。下图之中，红色的线表示期望折扣回，其中 η 被定义为：在这里插入图片描述
MM是一种迭代方法，对于每次迭代，我们发现替代函数M(蓝线)有如下性质：

是η的下界函数
可用于估计当前策略的折扣奖励 η
易于优化(我们将会把替代函数近似估计为一个二次方程)
在每一次迭代之中，我们找到最佳的M点并且把它作为当前的策略。

之后，我们重新评估新策略的下界并且重复迭代。当我们持续这个过程，策略也会不断的改进。因为可能的策略是有限的，所以我们当前的概率最终将会收敛到局部或者全部最优的策略。

目标函数

如下所示，有原始的策略梯度PG、置信域策略梯度TRPO和近端策略优化PPO版本的目标函数。接下来我们将详细进行证明。
在这里插入图片描述
简而言之，我们想最大化优势函数：动作值函数（奖励的最大期望）减去对应状态拥有的基准值。约束条件为新旧策略的差异不能过大。本文余下部分将数学证明该约束问题。

值函数、动作值函数和优势函数的表达式

首先，我们先定义Q值函数、状态值函数和优势函数。直接书写如下：
在这里插入图片描述

折扣奖励函数

折扣奖励η的期望计算如下：
在这里插入图片描述
或者，我们可以使用其他策略计算策略的奖励。以便比较两种政策。
证明：

标签：策略,迭代,函数,PPO,KL,强化,我们,TRPO
来源： https://blog.csdn.net/tian246319/article/details/122521296

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

关于我们 | 联系我们 | 留言反馈

专注分享技术，共同学习，共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有