标签:游戏 动作 一个 Environment exploration Learning 地宫 Astral NetHack
发表时间:2020(NeurIPS 2020)
文章要点:文章发布了一个复杂的强化学习的环境,可以用来研究exploration,planning,language-conditioned RL等等。环境是一个地宫类的游戏,相当于一层一层找门找地道,开地宫然后收集道具打怪兽,最终目标是找到护身符(Amulet of Yendor)并交给Astral Plane里对应的神(co-aligned deity in the Astral Plane)。这个地宫的特点是随机性特别强,每层关卡都是逐渐生成的,只有走到哪了才会出现哪(procedurally generated)。所以每次reset看到的地宫环境都是不一样的,所以像Go-explore这种记住动作轨迹然后回到之前的地方这种方式就行不通了。游戏的复杂度也很高,整个游戏有13个角色(thirteen roles),5个种族(five races),3个alignment(three moral alignments),两个性别(two genders)。里面的各种物品NPC上百个(over 450 items and 580 monster types),而且一个episode可能有成千上万个step,相当于比星际和DOTA的还要长一个量级。动作一共有98个,82个命令动作,16个移动动作。另一个特点是,游戏的界面是终端显示,所有的物品都是ASCII码显示,运行速度比Atari快14倍。所以作者构建了一个复杂但是对计算资源要求相对较低的环境(trikes a balance between complexity and speed)。此外,作者还设计了一些小任务来训练智能体学习基本技能,比如staircase,pet等等。作者在这些小任务上提供了两个baseline,一个IMPALA,一个RND。但是目前还没有任何算法可以完成整个任务。
总结:确实是极其复杂的一个游戏,光是看懂各种物品的属性就很麻烦,目前还不知道游戏咋玩的,各个符号的含义也太多了,还需要细看。然后确实很适合做exploration,但是这个的exploration也太难了。
疑问:无
标签:游戏,动作,一个,Environment,exploration,Learning,地宫,Astral,NetHack 来源: https://www.cnblogs.com/initial-h/p/15085815.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。