首页 > 其他分享> 文章详细

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition（VICE）

2021-01-05 19:01:21 阅读：250 来源： 互联网

标签：Control Definition Inverse 分类器奖励事件 RL 学习我们

Question:

如何根据一张结果的图片进行对机械臂的控制？整个流程是怎样执行的？
二分类器是什么，有什么作用？
增强学习和逆增强学习的基础概念是什么？
TRPO策略是什么？

论文资料补充

在这里插入图片描述

在基于事件的控制中, 我们用事件替换传统的奖励概念, 事件是表示出现某些所需结果 * (如到达目标位置或保持安全约束) 的二进制随机变量。为了获得控制策略, 我们可以对事件变量进行条件调整, 并对操作执行推理查询。例如, 传统的强化学习最类似于我们对所有时间步骤发生的事件进行条件的查询 (以前的工作见下文 *)。但是, 我们也可以要求模型根据至少在一个时间步长或特定时间步长上发生的事件选择操作, 等等。
Event Queries: ANY vs ALL Queries
我们认为有两个查询特别有用: all 查询, 它要求事件在任何时候都发生。这对于维护一些所需的配置 (如保持平衡的机器人或强制执行安全约束) 非常有用。any查询这对于实现一些指定的目标 (如导航到某个位置或完成任务) 非常有用. 我们根据机器人游说任务的每个查询优化了两个使用 TRPO 的策略, 机器人必须将蓝色方块扔到粉红色的目标中。我们立即看到这两个策略之间的质量差异–ANY 查询倾向于将块抛出目标, 从而最大限度地提高块到达目标位置至少一次的可能性。ALL 查询执行一个简短的折腾, 使块在任何时间级都靠近目标, 但往往无法像 ANY 查询那样频繁地达到目标。
VICE: Variational Inverse Control with Events
传统的逆增强学习 (IRL) 允许我们在难以手动构建奖励函数时自动构造奖励函数, 例如在使用复杂的观测 (如图像) 时。但是, 它还需要对任务进行全面演示, 这意味着我们需要已经知道如何执行任务。一种解决方法是收集所需结果的实例并培训分类器来检测您的目标–但是, 这也有其自身的问题, 例如如何挖掘底片或平衡数据集等。此外, 一个聪明的 RL 代理可能会学会最大限度地提高分类器的奖励, 而不会真正实现我们想要的目标。
在基于事件的框架中, 我们可以将此问题形式化为学习事件概率, 并且我们需要在事件发生时相应的状态和操作的数据。我们看到, VICE 能够学习符合我们的真实目标 (将块推到目标) 的策略, 而预先培训的分类器基线则将对数概率目标最大化到极限, 而没有达到我们想要的目标, 这表示天真的分类器很容易导致任务不规范。二进制事件指示器基线 (观察真实事件, 类似于稀疏奖励中的 RL) 能够了解所需的行为, 但样本效率明显较低, 并且需要严格的监督 (指示事件在每个访问状态是否发生的标签)。这里显示的所有视频都是在1000次迭代的训练之后。

论文翻译

1.Introduction

RL算法通过学习最大化奖励函数的策略来解决这些问题，奖励函数被视为问题公式的一部分。关于如何设计这些奖励的RL理论中提供的实践指导很少。然而，奖励函数的设计在实践中对于良好的结果至关重要，奖励错误指定很容易导致意外行为（Amodei等，2016）。例如，一个真空吸尘器机器人奖励拾取污垢可以通过反复倾倒地面上的污垢并再次拾起它来利用奖励（Russell＆Norvig，2003）。此外，通常很难记下奖励功能。例如，当从高维视觉观察中学习策略时，从业者经常使用动作捕捉（Peng等人，2017）或专门的计算机视觉系统（Rusu等人，2017）来获得奖励。
作为specify奖励的替代方案，模仿学习（Argall等，2009）和inverse强化学习（Ng＆Russell，2000）试图模仿专家行为。但是，这种方法需要专家来说明如何解决任务。我们提出了一个新的问题公式，即变量逆向控制与事件（VICE），它将反强化学习推广到替代形式的专家监督。特别是，我们考虑的情况是，我们有一个期望的最终结果的例子，而不是完整的演示，因此专家只需要显示任务的期望结果（见图1）。利用这些期望结果的直接方式是训练分类器（Pinto＆Gupta，2016; Tung等，2018）以区分期望和不期望的状态。然而，对于这些方法，尚不清楚如何正确地对负面进行采样以及使用此分类器作为奖励是否会导致预期的行为，因为RL代理可以学习利用分类器，就像它可以利用人类设计的奖励一样。我们的框架提供了一种更有原则的方法，其中分类器训练对应于学习概率图形模型参数（参见图2），并且策略优化对应于推断最佳动作。通过选择与我们的意图相对应的推理查询，我们可以减轻类似于先前描述的奖励黑客方案，并且还通过示例而不是手动工程来指定任务。
我们的逆向公式基于相应的前向控制框架，该框架将控制重新构建为图形模型中的推理。 我们的框架类似于先前的工作（Kappen et al，2009; Toussaint，2009; Rawlik et al，2012），但我们通过用事件发生变量替换传统的奖励概念来扩展这种联系。奖励对应于事件的log概率，并且值函数可以被解释为表示发生的那些事件的对数概率的后向消息。该框架保留了RL的完整表现力，因为任何奖励都可以表示为对数概率，同时提供关于任务规范的更直观的指导。它还允许我们表达各种意图，例如事件至少发生一次，在任何时间步骤发生一次，或在特定时间步骤发生一次。至关重要的是，我们的框架不要求代理人观察事件的发生，而只是要知道它发生的可能性。虽然这看似不寻常，但在现实世界中更为实际，成功可能由本身带有不确定性的概率模型决定。例如，前面提到的真空吸尘器机器人需要根据其观察结果估计其任务是否已完成，并且永远不会从现实世界接收到房间是否干净的直接反馈。
我们的贡献如下。我们首先介绍基于事件的控制框架，将先前的控制作为推理工作扩展到我们认为在实践中有用的替代查询。该控制视图可以通过在概率图形模型中将用户的意图映射到对应的推断查询来简化奖励工程的过程。我们的实验证明了不同的查询如何导致与相应意图一致的不同行为。然后，我们提出了以类似于逆强化学习的方式从数据中学习事件概率的方法。这对应于难以手动设计事件概率的用例，但是更容易提供成功完成任务的观察（例如，图像）。这种方法在实际情况下更容易应用，因为不需要完整的演示。我们的实验证明，我们的框架可以这种方式用于高维视觉观察的政策学习，其中奖励很难指定。此外，我们的方法基本上优于稀疏奖励RL等基线，表明我们的框架在学习事件时提供自动整形效果，使得解决其他困难任务变得可行。

2.Related work

我们对RL的重新制定是基于控制和推理之间的联系（Kappen等，2009; Ziebart，2010; Rawlik等，2012）。由此产生的问题有时被称为最大熵强化学习或KL控制。在线性动力系统的情况下，控制和推理之间的二元性已经在Kalman（1960）中研究过;托多罗夫（2008年）。在线性可解决的MDP（Todorov，2007）和具有离散状态的环境中，可以有效且精确地优化最大熵目标。在线性二次系统中，控制作为推理技术已被应用于解决机器人的路径规划问题（Toussaint，2009）。在深度RL的背景下，最大熵目标已被用于推导Q学习和政策梯度算法的软变体（Haarnoja等，2017; Schulman等，2017; O’Donoghue等，2016; Nachum）等人，2017）。这些方法将根据奖励制定的标准RL目标嵌入到概率推理的框架中。相比之下，我们的目标是以不需要指定任意标量值奖励函数的方式重新制定RL。
除了在控制设置中研究推理问题之外，我们还研究了这些模型中学习事件概率的问题。这与先前关于逆强化学习（IRL）的工作有关，该工作还试图将目标学习纳入概率模型框架（Ziebart等，2008; Ziebart，2010）。如第5节所述，我们的工作将IRL概括为我们仅提供所需结果或目标的示例，这在实践中更容易提供，因为我们不需要知道如何实现目标。
奖励设计对于从RL代理获得期望的行为至关重要（Amodei等，2016）。 Ng＆Russell（2000）表明，可以修改或塑造奖励，以加快学习速度而不改变最优政策。辛格等人。（2010）研究最优奖励设计的问题，并介绍健身功能的概念。他们观察到，在某些情况下，与健身功能不同的代理奖励可能是最佳的，而Sorg等人。（2010）研究如何选择这种最优代理奖励的问题。哈德菲尔德 - 梅内尔等人。（2017）基于给定的奖励和MDP介绍推断真实目标的问题。我们的框架通过引入两个决策来帮助任务规范：选择感兴趣的推理查询（即，代理何时以及应该引发事件的次数？），以及感兴趣的事件的规范。此外，如第6节所述，我们观察到我们的方法自动提供奖励塑造效果，允许我们解决其他困难的任务。

3. 准备工作

确定性策略、回报是说只要给定一个状态s，就会输出一个具体的动作a，而且无论什么时候到达状态s，输出的动作a都是一样的。
随机策略、回报指给定一个状态s，输出在这个状态下可以执行的动作的概率分布。即使在相同状态下，每次采取的动作也很可能是不一样的。
关于什么是变分
实验结果显示在表1中。虽然两个查询的目标平均距离大致相同，但是任何查询都会产生更接近的最小距离。这是有道理的，因为在ALL查询中，代理会在每个时间步骤都受到惩罚，因为它不在目标附近。 ANY查询可以承受较低的累积回报，而是具有更准确地达到目标的最大搜索行为。在这里，ANY查询更好地表达了我们达到目标的意图。
我们现在将我们的事件概率学习框架（我们称之为变分逆控制与事件（VICE））与离线分类器训练基线进行比较。我们还比较了我们的方法，以学习真正的二元事件指标，看看我们的方法是否可以提供一些奖励塑造的好处，以加快学习过程。学习事件概率的数据来自成功状态。
像素迷宫。在此任务中，点质量需要通过小迷宫导航到目标位置，如图5所示。观察结果包括64x64 RGB图像，这些图像对应于迷宫的俯视图。动作空间由机器人上的X和Y力组成。我们使用CNN来代表政策和事件分布，以1000个成功状态作为监督进行培训。
蚂蚁。在此任务中，四足“蚂蚁”（如图5所示）需要爬到目标位置，距离其起始位置3米。状态空间包含蚂蚁的关节角度和XYZ坐标。动作空间对应于关节扭矩。我们使用500个成功状态作为监督。
推动像素。在此任务中，7-DoF机械臂（如图5所示）必须将圆柱体对象推到目标位置。状态空间包含关节角度，关节速度和64x64 RGB图像，动作空间对应于关节扭矩。我们使用10K成功状态作为监督
培训细节和神经网络架构可以在附录G中找到。我们还将我们的方法与可以访问真实二元事件指示器的强化学习基线进行比较。对于所有任务，我们定义一个“目标区域”，并在代理位于目标区域时给予代理+1奖励，否则为0。请注意，此RL基线与稀疏奖励中的vanilla RL类似，“观察”事件，为其提供附加信息，而我们的模型仅使用从成功示例中学习的事件概率，并且不接受其他监督。它包含在内，以提供有关任务难度的参考点。结果总结在表2中，详细的学习曲线可以在图6和附录G中看到。我们注意到这些实验的以下要点。
VICE优于天真的分类器。我们观察到，对于迷宫，简单分类器和我们的方法（VICE）都表现良好，尽管VICE实现了较低的最终距离。在Ant环境中，VICE对于获得良好性能至关重要，而简单的分类器无法解决任务。同样，对于Pusher任务，VICE明显优于分类器（无法解决任务）。与天真的分类器方法不同，VICE积极地将当前政策中的负面例子整合到学习过程中，并将事件概率与任务的动态属性进行适当的建模，类似于IRL。
我们观察到我们的方法实现了与此设计奖励相当的性能，表明我们的自动成型效果可与手工设计的形状奖励相媲美。

标签：Control,Definition,Inverse,分类器,奖励,事件,RL,学习,我们
来源： https://blog.csdn.net/weixin_43358537/article/details/89709000

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。