ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL

2022-03-19 12:37:17  阅读:155  来源: 互联网

标签:CONTROL 状态 based dynamics RL BASED MODEL reward model



发表时间:2018(ICLR 2018)
文章要点:这篇文提出了temporal difference models(TDMs)算法,把goal-conditioned value functions和dynamics model联系起来,建立了model-free和model-based RL的关系,结合了各自的优点,既利用dynamics里丰富的信息,也超过了直接model based RL的效果。
具体的,一个model based RL的问题可以看求动作序列,同时满足状态转移的约束

换个写法,可以写成

然后,如果我们把reward定义成和状态相关的距离

那么如果折扣因子为0,即我们只考虑一步的reward,我们有goal conditioned value function为

然后前面的式子变为

这个时候就发现,前面model based RL的优化目标,就变成一个和Q function相关的一个东西了,这就和model free方法联系上了。但是这个时候只能考虑折扣因子为0的情况。进一步,在goal conditioned value function里面再加一个planning horizon的参数\(\tau\),定义一个和horizon有关的Q

这样一来,这个Q就表示给定\(\tau\)步,这个agent和目标状态还有多远。如果\(\tau=0\),这个东西就变回一步的值了,也就是之前那个一步的dynamics model。所以这个TDM算法可以看成是model based和model free的一种中间形式。进而优化目标变成

有了这个式子之后,就可以组成整个算法了。先用MPC的方式基于reward,和这个Q(这个Q既可以认为是Q,也可以认为是dynamics model)来选择动作,在环境里执行之后收集状一步的态转移存下来。然后用这些状态转移,构造不同目标状态,不同τ的样本用来训练Q。然后重复这个过程。
另外,文章里面还说了,reward做成一个向量的形式来学习,因为reward是和距离相关的,然后状态就是坐标位置,所以这个reward关于各个分量具有可加性,就可以各个坐标分开计算reward(if the distance D(s; sg) factors additively over the dimensions, we can train a vector-valued Q-function that predicts per-dimension distance)。这样的好处是如果有的问题只需要在几个分量上考虑的话,这个问题会变得简单很多(can train the TDM to predict distances along only those dimensions or features that are used by r)。
总结:很有意思的一个工作啊。
疑问:planning是不是在reward稀疏的时候作用更大?
因为这个距离的定义是基于状态的,文章里面的状态就是坐标位置之类的,所以算距离就比较直接,如果状态是图像之类的,就会比较麻烦吧?

标签:CONTROL,状态,based,dynamics,RL,BASED,MODEL,reward,model
来源: https://www.cnblogs.com/initial-h/p/16025957.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有