ICode9

精准搜索请尝试: 精确搜索
  • awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘2022-08-25 12:33:45

    引言 探索和利用的平衡 (The banlance between exploration and exploitation) 是强化学习中最核心的问题之一。 一般来说,利用指的是利用当前已知知识做出最优动作,探索指的是探索未知的环境以获取新的知识,从而潜在地可能得到回报更大的动作。探索与利用如何平衡的问题即是

  • Deep Exploration via Bootstrapped DQN2022-06-07 00:03:41

    发表时间:2016(NIPS 2016) 文章要点:这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exploration指的是一个探索策略进行多步的探索,而不是像ϵ-greedy那种每步都是一个随

  • Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices2022-05-21 00:02:59

    发表时间:2021(ICML 2021) 文章要点:这篇文章想说,通常强化学习算法exploration和exploitation都是混在一起的,既探索环境的dynamics,同时也利用探索到的信息来提升策略。但是要想更好的更新策略,就需要好的探索来收集任务相关的信息;要想得到更好的探索策略,就需要基于当前学到的策略还指

  • EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

    发表时间:2018(ICLR 2019) 文章要点:文章提出了一个random network distillation (RND)的算法,通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说,如果agent去过某个状态了,那么预测误差就会更小,反之就会大。 具体的,先有一个随机网络f,

  • A Framework for Reinforcement Learning and Planning2022-04-12 07:31:06

    发表时间:2020 文章要点:这篇文章是篇综述,主要从RL和planning的异同入手,总结了对解决MDP这类问题的公共因素,放到一起称作framework for reinforcement learning and planning (FRAP)的框架。首先文章提出,RL和planning的主要区别就是环境模型是已知的还是未知的,通常RL用在环境model

  • Model-based Reinforcement Learning: A Survey2022-02-19 12:34:34

    发表时间:2021 文章要点:一篇综述,主要从dynamics model learning,planning-learning integration和implicit model-based RL三个方面介绍。dynamics model learning包括stochasticity, uncertainty, partial observability, non-stationarity, state abstraction, and temporal abst

  • 题解 CF852D Exploration plan2021-11-04 14:00:41

    【题意翻译】 给定一个\(V\) 个点\(E\) 条边的带权无向图,在图上有\(N\) 个人,第\(i\) 个人位于点\(x_ i\) ,一个人通过一条边需要花费这条边的边权的时间。 现在每个人可以自由地走。求最短多少时间后满足结束后有人的节点数\(\geq K\) \(N,V \leq 500\) 【题目分析】 首先发现V很

  • The NetHack Learning Environment2021-08-01 01:33:41

    发表时间:2020(NeurIPS 2020) 文章要点:文章发布了一个复杂的强化学习的环境,可以用来研究exploration,planning,language-conditioned RL等等。环境是一个地宫类的游戏,相当于一层一层找门找地道,开地宫然后收集道具打怪兽,最终目标是找到护身符(Amulet of Yendor)并交给Astral Plane里对应

  • 技术分享 | 为什么学习rrt_exploration实现自主建图容易掉坑?2021-07-05 09:31:21

    在无人车领域当中,SLAM和导航两个部分一直是研究人员关注的重点,无人车作为移动机器人,这两个功能也十分重要,无人车到一个未知的环境中,人为控制无人车进行建图,建立好地图后,再使用导航,这是目前在无人车应用场景中十分常见的场景,但在实际应用过程中,还是存在局限性,很多应用场景下需

  • 探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值2020-11-22 09:02:25

    探究Java中基本类型和部分包装类在声明变量时不赋值的情况下java给他们的默认赋值 当基本数据类型作为普通变量(八大基本类型: byte,char,boolean,short,int,long,float,double) 只有开发人员对其进行初始化,java不会对其进行初始化, 如果不初始化基本类型变量,则编译时就会报错 实验

  • 论文阅读之Regularized Evolution for Image Classifier Architecture Search2020-11-14 02:03:37

    Regularized Evolution for Image Classifier Architecture Search这篇文章实际上解决的是针对NAS这个问题用EA算法的缺陷,一个很强的motivation是NAS是需要对搜到的网络进行重新训练的,但是即使是一个比较差的网络,在训练的过程中也可能因为偶然因素变得很好,如果是传统的EA算法,在种

  • 强化学习框架RLlib教程004:Training APIs的使用(三)高级pythonAPI2020-10-06 17:32:01

    目录   定制训练流程(Custom Training Workflows)   全局协调(Global Coordination)   回调函数和自定义准则(Callbacks and Custom Metrics)   可视化自定义的度量(Visualizing Custom Metrics)   自定义探索行为(Customizing Exploration Behavior)   训练过程中自定义评估(Cus

  • data exploration with R2019-10-18 15:53:40

    数据挖掘的简单流程包括以下部分: 数据获取:爬虫等途径获取数据 数据预处理:数据清洗、数据变换、数据描述 特征工程:特征构建、特征选择、特征提取 数据建模 预测或分析 数据获取暂时略过,爬虫方面R和Python都有很多好用的包,尤其是Python的Beautiful Soap,很方便使用了。 数据预处

  • [CF852D] Exploration plan2019-10-16 13:03:50

    问题描述 The competitors of Bubble Cup X gathered after the competition and discussed what is the best way to get to know the host country and its cities. After exploring the map of Serbia for a while, the competitors came up with the following facts: the cou

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有