ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Coordinated Proximal Policy Optimization (CoPPO)

2022-06-20 22:04:26  阅读:185  来源: 互联网

标签:based 策略 CoPPO 更新 智能 Policy Coordinated 函数


Coordinated Proximal Policy Optimization (CoPPO)

2111.04051

摘要:

        提出了CoPPO。关键想法是,在对不同智能体进行策略更新时,对步长进行coordinated adaptation。证明了策略提升的单调性。基于一些近似,推导出了简化的优化目标。这样的一个优化目标,会实现智能体之间的动态的credit assignment。这样就可以缓解多智能体策略更新时的高方差性。实验演示,比MAPPO好。实验环境:cooperative matrix games,the StarCraft II micromanagement tasks。

引言:

        Cooperative Multi-Agent Reinforcement Learning (CoMARL)有很大的希望可以用来解决现实世界中的许多问题,比如交通灯控制、传感器网络管理、自动驾驶车辆协调等。在这些应用问题中,一个智能体团组通过一个单一的全局奖励来最大化一个共同的期望应用性能。由于多个智能体同时处于一个共同的环境当中,同时学习并调整它们的行为,由此而引起的非稳态问题,让设计一个有效的学习方法变得很困难。

        近期,有一些基于CTDE架构的CoMARL方法提出,包括policy-based和value-based。尽管一般地来说,policy-based的方法有稳定的收敛性、更适合随机性策略问题,但是policy-based方法在研究圈内得到较少的关注,实验上性能一般也比valued-based方法要差(Samvelyan et al., 2019)。

        两类方法之间的差距很程度上可以归结为CTDE范式里中心化训练过程中性能不够好。在value based方法里,算法通过训练值函数来直接优化策略,可以利用额外的全局信息。在policy based方法里只能利用中心化值函数来进行状态/动作评估,然后策略函数来提升产生更高价值的似然度。或者说,在policy based方法里,中间值函数更新与策略函数更新之间有一个更新滞后。仅仅协调值函数是不足以保证令人满意的效果表现(Grondman et al., 2012; Fujimoto et al., 2018)。

        为此,我们提出了Coordinated Proximal Policy Optimization (CoPPO)算法,PPO (Schulman et al., 2017)算法的一种多智能体扩展。为了直接协调不同智能体的策略,CoPPO算法在策略更新过程中进行动态地调整步长。我们首先证明了策略更新与联合策略表现下界之间的一个关系。基于这种关系,通过优化一个理想的目标函数,可以实现单调的联合策略改进。为了改进可扩展性与实现效能归属(credit assignment),同时为了处理非稳态性带来的可能的高方差,一系列的变换与近似之后,我们推导出了一个可实施的优化目标,用于最终的CoPPO算法。尽管CoPPO最初是为了实现单调的联合策略改进,但CoPPO最终在每个智能体的策略更新步长的层次上,实现了不同智能体的策略之间的一个直接协调。具体地来说,通过考虑到其它智能体的策略更新,CoPPO实现了动态的效能归属,以此助于在每个智能的优化过程中获得一个合适的更新步长。实验研究,an extremely hard version of the penalty game (Claus and Boutilier, 1998),StarCraft II micromanagement benchmark。

 Value-based MARL

         基本要点是把全局Qtot分解为局部的Qi。这个分解过程(等价于公式中求偏导数的过程)实际上是一个效能归属的过程(Wang et al., 2020)。

Policy-based MARL

高方差与效果归属问题。逆事实优势函数。

Monotonic Joint Policy Improvement

误差估计:

信任域优化:

以上与单智能体TRPO/PPO过程近同。

多智能体联合策略分解:

联合策略PPO:

多智能体优势函数分解:

多智能体分解PPO:

还是有高方差的问题。

更新比率(步长)的二次限制:

最终的CoPPO:

实验结果:

 

标签:based,策略,CoPPO,更新,智能,Policy,Coordinated,函数
来源: https://www.cnblogs.com/ming2022/p/16390729.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有