ICode9

精准搜索请尝试: 精确搜索
  • 《强化学习框架》2020-08-14 19:35:04

      Reinforcement Learning (RL) frameworks help engineers by creating higher level abstractions of the core components of an RL algorithm. This makes code easier to develop, easier to read and improves efficiency. But choosing a framework introduces some am

  • 深度强化学习与深度Q网络2020-08-05 13:01:26

    上一讲笔者和大家简单介绍了强化学习的相关概念,了解了Q-Learning算法及其简单实现实例。本节笔者将在上一讲的基础上,将强化学习回归到深度学习的主题上。 深度强化学习 强化学习+深度学习的一个结果就是形成了深度强化学习这样的新领域,本节我们先简单介绍一下深度强化学习,然后来看

  • 强化学习(4)----简介2020-07-23 17:00:31

    视频:David Silver深度强化算法学习 +项目讲解 书籍:reinforcement learning 博客:https://blog.csdn.net/lagrangesk/article/details/80943045 一、强化学习 人类通常从与外界环境的交互中学习。 当我们在开车或者聊天时,我们会意识到自身行为会收到环境的反馈,然后根据行为去得到想

  • 人脸识别学习笔记三:强化篇2020-07-15 20:31:18

    一、MTCNN原理 1.MTCNN的推理流程 MTCNN包括三个阶段:在第一阶段,通过一个浅层的CNN网络来快速生成检测窗口作为第二阶段的输入。第二额极端,通过一个更复杂的CNN网络来剔除大量非面部窗口,以达到细化候选窗口的目的。第三阶段,使用一个更强大的CNN网络来再次细化结果,并输出5个人脸关键

  • 百度强化学习训练营总结2020-06-27 16:04:50

    百度强化学习训练营总结 PARL是百度公司开发的一个强化学习框架。作为一个机器学习小白,也是因为身边的同学推荐,才知道这个课程, 在这个课程上面了解到paddlepaddle 和 PARL 。作为一个不是计算机专业方向的学生,了解到机器学习的相关知识主要途径还是b乎。之前也只听过Tensorf

  • AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——12:10-12:40张伟楠《基于模型的强化学习:基础与前沿》2020-06-26 20:05:12

    AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——12:10-12:40张伟楠《基于模型的强化学习:基础与前沿》   导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为博主在聆听各领域教授或专家演讲时,一张一张截图进行保存,希望与大家一起学习,共同

  • AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——11: 10-11: 40 秦志伟《深度强化学习在网约车交易市场中的应用 》2020-06-25 12:44:35

    AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——11: 10-11: 40 秦志伟《深度强化学习在网约车交易市场中的应用  》   导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为博主在聆听各领域教授或专家演讲时,一张一张截图进行保存,希望与大

  • AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛 ——10: 40-11: 10 安波《竞争环境下的强化学习 》2020-06-25 12:43:18

    AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛 ——10: 40-11: 10 安波《竞争环境下的强化学习  》   导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为博主在聆听各领域教授或专家演讲时,一张一张截图进行保存,希望与大家一起学习,共同进

  • AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——11: 40-12: 10俞扬教授《更好的环境模型,更好的强化学习》2020-06-25 12:40:55

    AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛——11: 40-12: 10俞扬教授《更好的环境模型,更好的强化学习》   导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为博主在聆听各领域教授或专家演讲时,一张一张截图进行保存,希望与大家一起学习

  • 百度PARL初探2020-06-25 09:57:03

    强化学习是近些年最火,最接近“真实情况”的深度学习方式。对比其他学习注重的是决策问题,通过智能体与周边环境的交互学会了如何能获得更多的奖励。 百度的paddle团队开源了强化学习PARL项目,该项目有几大特性: 在实际任务中尝试使用强化学习解决问题 快速调研下不同强化学习算法在

  • 强化学习笔记2020-06-18 23:40:39

    强化学习笔记概论和初印象第一天学习基础补充迷宫游戏(SRASA)迷宫游戏(Qlearning)算法区别第二天学习DQN知识点MountainCar (DQN) 首先我是小萌新一个,课程资料图片来自网络,最近在跟着百度飞浆学习强化学习和深度学习,欢迎大佬给我指出我写的不对的地方和解答一些我的疑惑。 概论

  • 强化学习快速入门2020-06-17 23:04:18

    强化学习快速入门 https://www.bilibili.com/video/BV13W411Y75P?p=31 Q-learning:查表学习,每个行为在表中有对应的Q值,每一轮通过现实和估计的差距来更新表,具体的更新规则如下。值的注意的是,Q现实项中有一项为下一行为中最大奖励的估计。 Sarsa:和Q-learning类似,不同点在于

  • 强化学习课程学习(3)——初识Reinforcement Learning2020-06-17 13:06:17

    在整理一些相关的数学基础知识后,接下来就让我们来和Reinforcement Learning来个第一次的约会

  • 南京大学2020软工专硕初试第一经验分享2020-06-13 09:01:30

    写在前面:以下的所有经验都是我自己备考中亲身经历得出的,不存在想象或者编造的情况,但由于我自己的性格,我对于不喜欢的人或事的印象极难改变,所以你会看到我对一些老师比较负面的评价。 另外由于每个人的实际情况不同,当然每个人最适合的复习策略也不同,我会尽可能的介绍我自己的

  • 强化学习入门2020-05-10 15:03:38

    前菜 定义问题 假设有一个工厂,工厂里有不同的仓库,机器人需要把材料从一个仓库送到另一个仓库。 状态 states 这个示例中状态就是机器人所处的位置,因为数字比字符更好处理,这里我们将状态映射到数字。 动作 actions 这个示例中动作就是可到达仓库的方向,例如L8: 不同状态下的动作集

  • SQL语句的强化2020-05-08 20:05:21

    数据库数据  girls数据库 1 /* 2 SQLyog Ultimate v10.00 Beta1 3 MySQL - 5.7.18-log : Database - girls 4 ********************************************************************* 5 */ 6 7 8 /*!40101 SET NAMES utf8 */; 9 10 /*!40101 SET SQL_MODE=''

  • sql 强化练习 (七)2020-04-05 19:56:53

    继续 sql 练习, 不能停下来的哦, 通过这一系列的搬砖操作, 相信在日常业务的sql 应该是能达到相对清楚地写出来的, 尤其是我做数据分析这块, 感觉真的每天都要写才行, 之前都是用 Python 来轻松搞定, 但仔细一想, sql 才是最通用的哦, sql 熟练了, 我感觉, 数据分析的基础工作就已

  • 强化学习中的重要概念2020-04-05 17:59:04

      Action Space(行为空间) 定义:在所在环境中所有有效的行为的集合叫行为空间。 一些环境是有离散的行为,对于agent来说是有限的行为,如Atari游戏、Alpha Go。 其他的环境是有连续的行为,如在真实世界的机器人的控制角度等。     Policy(策略) 定义:策略是一种被agent使用去决定采取什么

  • sql 强化练习 (六)2020-04-05 17:55:44

    本以为学会了Python 就已经天下无敌, 果然, 我还是太傻太天真了. 业务中几乎就没有用 Python 来直接连接数据库进行操作, 当然我是说数据这块哈. 哎, 难受, 还是用的 sql 这种方式. 但有个问题在于, sql 没有类似于编程语言那样来用个数据结构存储存储中间过程, 于是呢, 在写 "套

  • 深度学习笔记13-强化学习与DQN(初步了解)2020-03-27 12:03:05

    1.强化学习在游戏领域的应用 2.强化学习的要点   3.强化学习案例   马尔科夫的无后效性:系统在t>t0时刻所处的状态与系统在t0时刻以前的状态无关,这就是马尔科夫性或者无后效性。 马尔科夫模型具体公式描述如下 有随机过程{Xn,n为整数},对于任意n和I0,I1,In,满足条件概率:

  • 强化学习概念2020-03-11 12:42:06

    文章目录RL算法种类强化学习方法Model-free 和 Model-based基于概率 和 基于价值回合更新 和 单步更新在线学习 和 离线学习 RL算法种类 通过价值选行为:q learning, sarsa( 使用表格学习)和deep q network(使用神经网络学习) 直接输出行为:policy gradients 想象环境并从中学习:m

  • 深度强化学习第1课:强化学习入门2020-03-04 12:44:22

    文章目录0 写在前面1 推荐书籍2 入门简介2.1 机器学习2.1 RL的特点2.3 实例3 rewards3.1 奖励假设3.2 举例4 Sequential Decision Making(序列决策制定)4.1 两个基本问题4.1.1 强化学习4.1.2 规划5 智能体与环境6 History and State6.1 history6.2 状态(state)7 信息状态(

  • 强化学习中的无模型控制2020-02-23 20:01:10

      在上一篇文章强化学习中的无模型预测中,有说过这个无模型强化学习的预测问题,通过TD、n-step TD或者MC的方法能够获得值函数,那拿到value之后如何获取policy呢? Model-Free Control in Reinforcement Learning   在model free control中的第一个概念就是on-policy 和 off-

  • 强化学习系列之实验基础记录(1)2020-02-03 13:39:33

    画图 目前在做强化学习在水下机器人上的应用,具体如何应用在这里还不到发表的时候,请见谅,目前还不能标识,已经看了很多强化学习的理论内容。准备开始做实验了。所以也就借这个机会在这里记录一下自己每天做的事情,如果能和大家一起讨论更好。 多的不说,我先从我实验要用到的画图

  • 使用MATLAB/simulink与PreScan联合进行基于强化学习的自动驾驶系统设计与仿真2020-01-31 19:01:10

    使用MATLAB/simulink与PreScan联合进行基于强化学习的自动驾驶系统设计与仿真总论环境配置系统搭建 总论 使用MATLAB中的强化学习工具箱作为核心算法的建立工具,在simulink中搭建自动驾驶系统,并以PreScan作为仿真环境进行训练与验证,该方法能够有效的验证在智能网联环境下利用

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有