标签:Control 走进 机器人 现实 学习 DeepMind Suite 强化
火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?
DeepMind已经开始往这方面努力。他们昨天发布的控制套件“ DeepMind Control Suite ”,就为设计和比较用来控制物理世界的强化学习算法开了个头。
就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。
Control Suite设计了一组有着标准化结构、可解释奖励的 连续控制任务 ,还为强化学习Agent提供一组 性能测试指标 。
这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。
如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:
体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。
DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:
这些结果也是强化学习完成控制任务的基线数据。
DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。
Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?
标签:Control,走进,机器人,现实,学习,DeepMind,Suite,强化 来源: https://www.cnblogs.com/xinzhihao/p/10869728.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。