exploration

awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘2022-08-25 12:33:45

引言探索和利用的平衡 (The banlance between exploration and exploitation) 是强化学习中最核心的问题之一。一般来说，利用指的是利用当前已知知识做出最优动作，探索指的是探索未知的环境以获取新的知识，从而潜在地可能得到回报更大的动作。探索与利用如何平衡的问题即是
Deep Exploration via Bootstrapped DQN2022-06-07 00:03:41

发表时间：2016（NIPS 2016）文章要点：这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为，当前的探索策略比如ϵ-greedy，并没有进行深度探索（temporally-extended (or deep) exploration）。Deep exploration指的是一个探索策略进行多步的探索，而不是像ϵ-greedy那种每步都是一个随
Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices2022-05-21 00:02:59

发表时间：2021（ICML 2021）文章要点：这篇文章想说，通常强化学习算法exploration和exploitation都是混在一起的，既探索环境的dynamics，同时也利用探索到的信息来提升策略。但是要想更好的更新策略，就需要好的探索来收集任务相关的信息；要想得到更好的探索策略，就需要基于当前学到的策略还指
EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

发表时间：2018（ICLR 2019）文章要点：文章提出了一个random network distillation (RND)的算法，通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说，如果agent去过某个状态了，那么预测误差就会更小，反之就会大。具体的，先有一个随机网络f，
A Framework for Reinforcement Learning and Planning2022-04-12 07:31:06

发表时间：2020 文章要点：这篇文章是篇综述，主要从RL和planning的异同入手，总结了对解决MDP这类问题的公共因素，放到一起称作framework for reinforcement learning and planning (FRAP)的框架。首先文章提出，RL和planning的主要区别就是环境模型是已知的还是未知的，通常RL用在环境model
Model-based Reinforcement Learning: A Survey2022-02-19 12:34:34

发表时间：2021 文章要点：一篇综述，主要从dynamics model learning，planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochasticity, uncertainty, partial observability, non-stationarity, state abstraction, and temporal abst
题解 CF852D Exploration plan2021-11-04 14:00:41

【题意翻译】给定一个\(V\) 个点\(E\) 条边的带权无向图，在图上有\(N\) 个人，第\(i\) 个人位于点\(x_ i\) ，一个人通过一条边需要花费这条边的边权的时间。现在每个人可以自由地走。求最短多少时间后满足结束后有人的节点数\(\geq K\) \(N,V \leq 500\) 【题目分析】首先发现V很
The NetHack Learning Environment2021-08-01 01:33:41

发表时间：2020（NeurIPS 2020）文章要点：文章发布了一个复杂的强化学习的环境，可以用来研究exploration，planning，language-conditioned RL等等。环境是一个地宫类的游戏，相当于一层一层找门找地道，开地宫然后收集道具打怪兽，最终目标是找到护身符（Amulet of Yendor）并交给Astral Plane里对应
技术分享 | 为什么学习rrt_exploration实现自主建图容易掉坑？2021-07-05 09:31:21

在无人车领域当中，SLAM和导航两个部分一直是研究人员关注的重点，无人车作为移动机器人，这两个功能也十分重要，无人车到一个未知的环境中，人为控制无人车进行建图，建立好地图后，再使用导航，这是目前在无人车应用场景中十分常见的场景，但在实际应用过程中，还是存在局限性，很多应用场景下需
探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值2020-11-22 09:02:25

探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值当基本数据类型作为普通变量(八大基本类型： byte,char,boolean,short,int,long,float,double) 只有开发人员对其进行初始化，java不会对其进行初始化，如果不初始化基本类型变量，则编译时就会报错实验
论文阅读之Regularized Evolution for Image Classifier Architecture Search2020-11-14 02:03:37

Regularized Evolution for Image Classifier Architecture Search这篇文章实际上解决的是针对NAS这个问题用EA算法的缺陷，一个很强的motivation是NAS是需要对搜到的网络进行重新训练的，但是即使是一个比较差的网络，在训练的过程中也可能因为偶然因素变得很好，如果是传统的EA算法，在种
强化学习框架RLlib教程004：Training APIs的使用（三）高级pythonAPI2020-10-06 17:32:01

目录　　定制训练流程（Custom Training Workflows）　　全局协调（Global Coordination）　　回调函数和自定义准则（Callbacks and Custom Metrics）　　可视化自定义的度量（Visualizing Custom Metrics）　　自定义探索行为（Customizing Exploration Behavior）　　训练过程中自定义评估（Cus
data exploration with R2019-10-18 15:53:40

数据挖掘的简单流程包括以下部分：数据获取：爬虫等途径获取数据数据预处理：数据清洗、数据变换、数据描述特征工程：特征构建、特征选择、特征提取数据建模预测或分析数据获取暂时略过，爬虫方面R和Python都有很多好用的包，尤其是Python的Beautiful Soap，很方便使用了。数据预处
[CF852D] Exploration plan2019-10-16 13:03:50

问题描述 The competitors of Bubble Cup X gathered after the competition and discussed what is the best way to get to know the host country and its cities. After exploring the map of Serbia for a while, the competitors came up with the following facts: the cou

ICode9

awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘2022-08-25 12:33:45

Deep Exploration via Bootstrapped DQN2022-06-07 00:03:41

Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices2022-05-21 00:02:59

EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

A Framework for Reinforcement Learning and Planning2022-04-12 07:31:06

Model-based Reinforcement Learning: A Survey2022-02-19 12:34:34

题解 CF852D Exploration plan2021-11-04 14:00:41

The NetHack Learning Environment2021-08-01 01:33:41

技术分享 | 为什么学习rrt_exploration实现自主建图容易掉坑？2021-07-05 09:31:21

探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值2020-11-22 09:02:25

论文阅读之Regularized Evolution for Image Classifier Architecture Search2020-11-14 02:03:37

强化学习框架RLlib教程004：Training APIs的使用（三）高级pythonAPI2020-10-06 17:32:01

data exploration with R2019-10-18 15:53:40

[CF852D] Exploration plan2019-10-16 13:03:50