ICode9

精准搜索请尝试: 精确搜索
  • Data-Efficient Hierarchical Reinforcement Learning2022-05-31 00:02:44

    发表时间:2018(NIPS 2018) 文章要点:这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal,同时用off-policy的方式提高样本效率。 具体的,通常的分层强化需要人为确定上层输出什么goal,然

  • EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

    发表时间:2018(ICLR 2019) 文章要点:文章提出了一个random network distillation (RND)的算法,通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说,如果agent去过某个状态了,那么预测误差就会更小,反之就会大。 具体的,先有一个随机网络f,

  • Planning to Explore via Self-Supervised World Models2022-05-13 23:00:11

    发表时间:2020(ICML 2020) 文章要点:这篇文章提出了一个Plan2Explore的model based方法,通过self-supervised方法来做Task-agnostic的探索,在这个过程中有效学习了world model,然后可以迁移到下游的具体任务上,实现zero or few-shot RL。具体的,world model包含encoder,dynamics,reward,decod

  • CSS+SVG 制作B站充电效果2022-05-02 12:31:37

    CSS+SVG 实现B站为他充电效果   先浅浅分析一下结构,外层一个div 内部嵌套两个div 使用flex布局分布左右两端,右侧边距为0 上下左分别添加一定的边距。左侧为他充电按钮很简单不过多分析,主要是右侧像电路一样的图案,主要是使用figma这个在线画图软件画出svg图案,直接复制代码即可。

  • 人工智能导论2022-03-20 21:03:29

    人工智能导论 1)人工智能:让机器像人一样具有一些能力,扩展人的智慧。 2)机器学*: 不显式编程地赋予计算机能力的研究领域。 3)AIOps: Artificial Intelligence for IT Operations,智能化运维,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学*的方式来进

  • TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL2022-03-19 12:37:17

    发表时间:2018(ICLR 2018) 文章要点:这篇文提出了temporal difference models(TDMs)算法,把goal-conditioned value functions和dynamics model联系起来,建立了model-free和model-based RL的关系,结合了各自的优点,既利用dynamics里丰富的信息,也超过了直接model based RL的效果。 具体的,

  • Model-Based Reinforcement Learning via Latent-Space Collocation2022-03-10 12:31:21

    发表时间:2021(ICML 2021) 文章要点:这篇文章提出了latent collocation method (LatCo)算法,用来planning状态序列,而不是动作序列,来解决long horizon的planning问题(it is easier to solve long-horizon tasks by planning sequences of states rather than just actions)。主要思路就是

  • 绘制双子图含图例完整代码2022-02-27 20:02:13

    import matplotlib.pyplot as plt from matplotlib import ticker import seaborn as sns import pandas as pd import numpy as np plt.style.use('ggplot') # fig, ax = plt.subplots(1,len(scenarios), figsize=(25,4.5)) # plt.show() # colors = ["#46

  • 【强化学习】在gym环境下,老虎机的算法总结2022-02-03 09:57:59

    目录 问题描述: 实现步骤: 1.环境的部署与实现 2.贪心策略(The epsilon-greedy algorithm) 3.玻尔兹曼勘探(The softmax exploration algorithm) 4.置信上限算法(The upper confidence bound algorithm) 5.汤普森采样算法(The Thompson sampling algorithm) 参考: 问题描述:    

  • 【强化学习】港中大强化学习课程Assignment解析 01_22022-01-18 14:30:34

    【强化学习】港中大强化学习课程Assignment解析 01_2 课程相关 课程首页:https://cuhkrlcourse.github.io/视频链接:https://space.bilibili.com/511221970/channel/seriesdetail?sid=764099【B站】相关资料:https://datawhalechina.github.io/easy-rl/#/【EasyRL】Reinforcemen

  • 【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:33:58

    Column: December 30, 2021 11:01 PM Last edited time: January 10, 2022 4:45 PM Sensor/组织: 3 RGB; 曾经短暂的第一名 Status: 正在套娃 Summary: RL; carla leaderboard Type: arXiv Year: 2021 参考与前言 论文地址:https://arxiv.org/abs/2111.08575 模块化思想有点意

  • 【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:30:13

    Column: December 30, 2021 11:01 PM Last edited time: January 10, 2022 4:45 PM Sensor/组织: 3 RGB; 曾经短暂的第一名 Status: 正在套娃 Summary: RL; carla leaderboard Type: arXiv Year: 2021 参考与前言 论文地址:https://arxiv.org/abs/2111.08575 模块化思想有点

  • 2.4 FrozenLake使用cross-entropy方法2022-01-12 10:29:59

    FrozenLake是gym的另一个grid world环境。其环境简单的栅格地图,有四种栅格状态,分别用字母SFHG表示,下面是一个地图的例子: SFFF (S: starting point, safe) FHFH (F: frozen surface, safe) FFFH (H: hole, fall to your doom) HFFG (G: goal, where the frisbee is located)

  • PYTORCH笔记 actor-critic (A2C)2022-01-12 09:58:11

            理论知识见:强化学习笔记:Actor-critic_UQI-LIUWJ的博客-CSDN博客 由于actor-critic是policy gradient和DQN的结合,所以同时很多部分和policy network,DQN的代码部分很接近 pytorch笔记:policy gradient_UQI-LIUWJ的博客-CSDN博客 pytorch 笔记: DQN(experience replay

  • BIOLCNET: REWARD-MODULATED LOCALLY CONNECTED SPIKING NEURAL NETWORKS2021-12-28 12:03:34

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!  

  • 强化学习实战 | 自定义Gym环境2021-12-05 12:01:44

    新手的第一个强化学习示例一般都从Open Gym开始。在这些示例中,我们不断地向环境施加动作,并得到观测和奖励,这也是Gym Env的基本用法: state, reward, done, info = env.step(action)  其中state是agent的观测状态,reward是采取了action之后环境返回的奖励,done是判断后继状态是否是

  • 马尔科夫决策过程基本概念2021-12-05 11:33:55

    马尔可夫决策过程(Markov decision process, MDP)是人工智能中的一个重要概念,也是强化学习的理论基础之一。在今天的文章中,我们使用来自Stuart Russell和Peter Norvig的《Artificial Intelligence: A Modern Approach》一书中的网格例子来介绍MDP的基本概念。 我们的吃豆人游

  • 强化学习系列(一):强化学习简介2021-12-01 20:34:30

    参考链接: https://blog.csdn.net/LagrangeSK/article/details/80943045 https://blog.csdn.net/qq_37402392/article/details/121348504?spm=1001.2014.3001.5501 https://blog.csdn.net/qq_37402392/article/details/121490296?spm=1001.2014.3001.5501 术语表 agent——整体 e

  • 强化学习系列(一):强化学习简介2021-12-01 20:31:57

    参考链接: https://blog.csdn.net/LagrangeSK/article/details/80943045 https://blog.csdn.net/qq_37402392/article/details/121348504?spm=1001.2014.3001.5501 https://blog.csdn.net/qq_37402392/article/details/121490296?spm=1001.2014.3001.5501 术语表 agent——

  • LEARNING WITH AMIGO: ADVERSARIALLY MOTIVATED INTRINSIC GOALS2021-11-01 13:02:38

    发表时间:2021(ICLR 2021) 文章要点:这篇文章提出了一个解决sparse extrinsic rewards的办法AMIGO。思路就是用一个goal-generating teacher来生成难度适中的任务目标(constructively adversarial objective),提供一个目标相关的外部reward,让goal-conditioned student policy来学。具

  • RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS2021-10-26 12:32:16

    发表时间:2020(ICLR 2020) 文章要点:这篇文章提出了一个新的intrinsic reward机制,Rewarding Impact-Driven Exploration (RIDE),鼓励agent采取使得状态表征变化大的动作,相较于之前的方法,这个方式在procedurally-generated environments这类很难访问同一个状态多次的环境上效果更好(这里

  • (基础)奖励函数的入口参数详解 - 0052021-10-10 20:03:33

    文章目录 奖励函数的形式入口参数paramsall_wheels_on_trackclosest_waypointsclosest_objectsdistance_from_centerheadingis_crashedis_left_of_centeris_offtrackis_reversedprogressspeedsteering_anglestepstrack_lengthtrack_widthx, ywaypoints 总结 本文是根据AW

  • Detecting Rewards Deterioration in Episodic Reinforcement Learning2021-10-02 12:35:24

    发表时间:2021(ICML 2021) 文章要点:文章想说,我们训好一个policy之后,在真正用他的时候需要考虑安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我们就需要一个方法来快速检测这个train好的policy在用的时候效果有没有变差,如果变差了,要尽快发现,以便及时调

  • 解决IntelliJ IDEA多模块项目依赖错误问题2021-10-01 13:02:33

    文章目录 问题描述解决方法 问题描述 reward项目下面有reward_management和reward_portal两个模块,项目结构如下: ├─reward │ ├─reward_management │ ├─reward_portal 在reward_portal中的pom.xml加入依赖,在reward_management中的代码也能引用到相关包,导致项目启

  • Q -learning入门2021-09-30 20:00:27

    算法思想 Q-Learning是强化学习算法中value-based的算法,Q即为Q(s,a),就是在某一个时刻的state状态下,采取动作a能够获得收益的期望,环境会根据agent的动作反馈相应的reward奖赏, 所以算法的主要思想就是将state和action构建成一张Q_table表来存储Q值,然后根据Q值来选取能够获得最大收益的

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有