ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Deep Exploration via Bootstrapped DQN

2022-06-07 00:03:41  阅读:64  来源: 互联网

标签:via 训练 探索 deep exploration Deep Exploration DQN 2016



发表时间:2016(NIPS 2016)
文章要点:这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exploration指的是一个探索策略进行多步的探索,而不是像ϵ-greedy那种每步都是一个随机探索,没有连续性(Deep exploration means exploration which is directed over multiple time steps; it can also be called planning to learn or far-sighted exploration)。作者提出,同时训练多个Q网络,可以做到deep exploration。
具体做法就是训练网络的时候,不止一套Q value,而是有K套Q value,然后每个episode都用其中一个Q head来选择动作,相当于用同一个策略来探索这一整局,这样就做到了deep exploration。然后训练的时候,就有放回抽样各个Q head的样本分别训练。
总结:较老的一篇文章了,相当于是ensemble的方式,可能当时比较新颖吧。
疑问:dithering指的啥?

标签:via,训练,探索,deep,exploration,Deep,Exploration,DQN,2016
来源: https://www.cnblogs.com/initial-h/p/16350230.html

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有