REWARD

Data-Efficient Hierarchical Reinforcement Learning2022-05-31 00:02:44

发表时间：2018（NIPS 2018）文章要点：这篇文章提出了一个分层强化的算法HIRO: Hierarchical Reinforcement learning with Off-policy correction。主要的点在于不用人工设计具体的上层goal，同时用off-policy的方式提高样本效率。具体的，通常的分层强化需要人为确定上层输出什么goal，然
EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

发表时间：2018（ICLR 2019）文章要点：文章提出了一个random network distillation (RND)的算法，通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说，如果agent去过某个状态了，那么预测误差就会更小，反之就会大。具体的，先有一个随机网络f，
Planning to Explore via Self-Supervised World Models2022-05-13 23:00:11

发表时间：2020（ICML 2020）文章要点：这篇文章提出了一个Plan2Explore的model based方法，通过self-supervised方法来做Task-agnostic的探索，在这个过程中有效学习了world model，然后可以迁移到下游的具体任务上，实现zero or few-shot RL。具体的，world model包含encoder，dynamics，reward，decod
CSS+SVG 制作B站充电效果2022-05-02 12:31:37

CSS+SVG 实现B站为他充电效果先浅浅分析一下结构，外层一个div 内部嵌套两个div 使用flex布局分布左右两端，右侧边距为0 上下左分别添加一定的边距。左侧为他充电按钮很简单不过多分析，主要是右侧像电路一样的图案，主要是使用figma这个在线画图软件画出svg图案，直接复制代码即可。
人工智能导论2022-03-20 21:03:29

人工智能导论 1）人工智能：让机器像人一样具有一些能力，扩展人的智慧。 2）机器学*：不显式编程地赋予计算机能力的研究领域。 3）AIOps： Artificial Intelligence for IT Operations，智能化运维，将人工智能应用于运维领域，基于已有的运维数据（日志、监控信息、应用信息等），通过机器学*的方式来进
TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL2022-03-19 12:37:17

发表时间：2018（ICLR 2018）文章要点：这篇文提出了temporal difference models(TDMs)算法，把goal-conditioned value functions和dynamics model联系起来，建立了model-free和model-based RL的关系，结合了各自的优点，既利用dynamics里丰富的信息，也超过了直接model based RL的效果。具体的，
Model-Based Reinforcement Learning via Latent-Space Collocation2022-03-10 12:31:21

发表时间：2021（ICML 2021）文章要点：这篇文章提出了latent collocation method (LatCo)算法，用来planning状态序列，而不是动作序列，来解决long horizon的planning问题（it is easier to solve long-horizon tasks by planning sequences of states rather than just actions）。主要思路就是
绘制双子图含图例完整代码2022-02-27 20:02:13

import matplotlib.pyplot as plt from matplotlib import ticker import seaborn as sns import pandas as pd import numpy as np plt.style.use('ggplot') # fig, ax = plt.subplots(1,len(scenarios), figsize=(25,4.5)) # plt.show() # colors = ["#46
【强化学习】在gym环境下，老虎机的算法总结2022-02-03 09:57:59

目录问题描述：实现步骤： 1.环境的部署与实现 2.贪心策略(The epsilon-greedy algorithm) 3.玻尔兹曼勘探(The softmax exploration algorithm) 4.置信上限算法(The upper confidence bound algorithm) 5.汤普森采样算法(The Thompson sampling algorithm) 参考：问题描述：
【强化学习】港中大强化学习课程Assignment解析 01_22022-01-18 14:30:34

【强化学习】港中大强化学习课程Assignment解析 01_2 课程相关课程首页：https://cuhkrlcourse.github.io/视频链接：https://space.bilibili.com/511221970/channel/seriesdetail?sid=764099【B站】相关资料：https://datawhalechina.github.io/easy-rl/#/【EasyRL】Reinforcemen
【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:33:58

Column: December 30, 2021 11:01 PM Last edited time: January 10, 2022 4:45 PM Sensor/组织: 3 RGB; 曾经短暂的第一名 Status: 正在套娃 Summary: RL; carla leaderboard Type: arXiv Year: 2021 参考与前言论文地址：https://arxiv.org/abs/2111.08575 模块化思想有点意
【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:30:13

Column: December 30, 2021 11:01 PM Last edited time: January 10, 2022 4:45 PM Sensor/组织: 3 RGB; 曾经短暂的第一名 Status: 正在套娃 Summary: RL; carla leaderboard Type: arXiv Year: 2021 参考与前言论文地址：https://arxiv.org/abs/2111.08575 模块化思想有点
2.4 FrozenLake使用cross-entropy方法2022-01-12 10:29:59

FrozenLake是gym的另一个grid world环境。其环境简单的栅格地图，有四种栅格状态，分别用字母SFHG表示，下面是一个地图的例子： SFFF (S: starting point, safe) FHFH (F: frozen surface, safe) FFFH (H: hole, fall to your doom) HFFG (G: goal, where the frisbee is located)
PYTORCH笔记 actor-critic （A2C）2022-01-12 09:58:11

理论知识见：强化学习笔记：Actor-critic_UQI-LIUWJ的博客-CSDN博客由于actor-critic是policy gradient和DQN的结合，所以同时很多部分和policy network，DQN的代码部分很接近 pytorch笔记：policy gradient_UQI-LIUWJ的博客-CSDN博客 pytorch 笔记： DQN（experience replay
BIOLCNET: REWARD-MODULATED LOCALLY CONNECTED SPIKING NEURAL NETWORKS2021-12-28 12:03:34

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！
强化学习实战 | 自定义Gym环境2021-12-05 12:01:44

新手的第一个强化学习示例一般都从Open Gym开始。在这些示例中，我们不断地向环境施加动作，并得到观测和奖励，这也是Gym Env的基本用法： state, reward, done, info = env.step(action) 其中state是agent的观测状态，reward是采取了action之后环境返回的奖励，done是判断后继状态是否是
马尔科夫决策过程基本概念2021-12-05 11:33:55

马尔可夫决策过程(Markov decision process, MDP)是人工智能中的一个重要概念，也是强化学习的理论基础之一。在今天的文章中，我们使用来自Stuart Russell和Peter Norvig的《Artificial Intelligence: A Modern Approach》一书中的网格例子来介绍MDP的基本概念。我们的吃豆人游
强化学习系列（一）：强化学习简介2021-12-01 20:34:30

参考链接： https://blog.csdn.net/LagrangeSK/article/details/80943045 https://blog.csdn.net/qq_37402392/article/details/121348504?spm=1001.2014.3001.5501 https://blog.csdn.net/qq_37402392/article/details/121490296?spm=1001.2014.3001.5501 术语表 agent——整体 e
强化学习系列（一）：强化学习简介2021-12-01 20:31:57

参考链接： https://blog.csdn.net/LagrangeSK/article/details/80943045 https://blog.csdn.net/qq_37402392/article/details/121348504?spm=1001.2014.3001.5501 https://blog.csdn.net/qq_37402392/article/details/121490296?spm=1001.2014.3001.5501 术语表 agent——
LEARNING WITH AMIGO: ADVERSARIALLY MOTIVATED INTRINSIC GOALS2021-11-01 13:02:38

发表时间：2021（ICLR 2021）文章要点：这篇文章提出了一个解决sparse extrinsic rewards的办法AMIGO。思路就是用一个goal-generating teacher来生成难度适中的任务目标(constructively adversarial objective)，提供一个目标相关的外部reward，让goal-conditioned student policy来学。具
RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS2021-10-26 12:32:16

发表时间：2020（ICLR 2020）文章要点：这篇文章提出了一个新的intrinsic reward机制，Rewarding Impact-Driven Exploration (RIDE)，鼓励agent采取使得状态表征变化大的动作，相较于之前的方法，这个方式在procedurally-generated environments这类很难访问同一个状态多次的环境上效果更好（这里
(基础)奖励函数的入口参数详解 - 0052021-10-10 20:03:33

文章目录奖励函数的形式入口参数paramsall_wheels_on_trackclosest_waypointsclosest_objectsdistance_from_centerheadingis_crashedis_left_of_centeris_offtrackis_reversedprogressspeedsteering_anglestepstrack_lengthtrack_widthx, ywaypoints 总结本文是根据AW
Detecting Rewards Deterioration in Episodic Reinforcement Learning2021-10-02 12:35:24

发表时间：2021（ICML 2021）文章要点：文章想说，我们训好一个policy之后，在真正用他的时候需要考虑安全性和可靠性（RL tasks is the safety and reliability of the system）。所以我们就需要一个方法来快速检测这个train好的policy在用的时候效果有没有变差，如果变差了，要尽快发现，以便及时调
解决IntelliJ IDEA多模块项目依赖错误问题2021-10-01 13:02:33

文章目录问题描述解决方法问题描述 reward项目下面有reward_management和reward_portal两个模块，项目结构如下： ├─reward │ ├─reward_management │ ├─reward_portal 在reward_portal中的pom.xml加入依赖，在reward_management中的代码也能引用到相关包，导致项目启
Q -learning入门2021-09-30 20:00:27

算法思想 Q-Learning是强化学习算法中value-based的算法，Q即为Q（s，a），就是在某一个时刻的state状态下，采取动作a能够获得收益的期望，环境会根据agent的动作反馈相应的reward奖赏，所以算法的主要思想就是将state和action构建成一张Q_table表来存储Q值，然后根据Q值来选取能够获得最大收益的

1 2 3 > 尾页

ICode9

Data-Efficient Hierarchical Reinforcement Learning2022-05-31 00:02:44

EXPLORATION BY RANDOM NETWORK DISTILLATION2022-05-13 23:01:35

Planning to Explore via Self-Supervised World Models2022-05-13 23:00:11

CSS+SVG 制作B站充电效果2022-05-02 12:31:37

人工智能导论2022-03-20 21:03:29

TEMPORAL DIFFERENCE MODELS: MODEL-FREE DEEP RL FOR MODEL-BASED CONTROL2022-03-19 12:37:17

Model-Based Reinforcement Learning via Latent-Space Collocation2022-03-10 12:31:21

绘制双子图含图例完整代码2022-02-27 20:02:13

【强化学习】在gym环境下，老虎机的算法总结2022-02-03 09:57:59

【强化学习】港中大强化学习课程Assignment解析 01_22022-01-18 14:30:34

【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:33:58

【论文阅读】GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving2022-01-16 23:30:13

2.4 FrozenLake使用cross-entropy方法2022-01-12 10:29:59

PYTORCH笔记 actor-critic （A2C）2022-01-12 09:58:11

BIOLCNET: REWARD-MODULATED LOCALLY CONNECTED SPIKING NEURAL NETWORKS2021-12-28 12:03:34

强化学习实战 | 自定义Gym环境2021-12-05 12:01:44

马尔科夫决策过程基本概念2021-12-05 11:33:55

强化学习系列（一）：强化学习简介2021-12-01 20:34:30

强化学习系列（一）：强化学习简介2021-12-01 20:31:57

LEARNING WITH AMIGO: ADVERSARIALLY MOTIVATED INTRINSIC GOALS2021-11-01 13:02:38

RIDE: REWARDING IMPACT-DRIVEN EXPLORATION FOR PROCEDURALLY-GENERATED ENVIRONMENTS2021-10-26 12:32:16

(基础)奖励函数的入口参数详解 - 0052021-10-10 20:03:33

Detecting Rewards Deterioration in Episodic Reinforcement Learning2021-10-02 12:35:24

解决IntelliJ IDEA多模块项目依赖错误问题2021-10-01 13:02:33

Q -learning入门2021-09-30 20:00:27