强化

机器学习十讲----第十讲2021-02-06 22:35:43

机器学习的方法：强化学习: 强化学习的方法： Qlearning：学习建议：
学习进度笔记252021-02-05 19:32:03

《机器学习十讲》第十讲强化学习一、马尔可夫决策过程MDP 二、基于价值的方法 Q-Learning DQN 三、基于策略的方法策略梯度算法四、总结机器学习——》微积分、概率论、优化方法、统计学 ——》python、数据结构、数据库数据采集、数据管理
机器学习--强化学习2021-02-05 18:34:36

一、说在前面　　今天是这系列课程的最后一门课，虽然10节课听下来对机器学习内部的核心算法还有具体流程等等都还不太了解，但也算是对机器学习有了一个初步浅显的认识，对机器学习的探索不会止步于此。二、笔记 1、强化学习概述机器学习方法有监督学习
时空AI技术：深度强化学习在智能城市领域应用介绍2021-02-02 16:00:02

深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态，动作，奖励是三要素。在建模过程中，智能体根据环境的当前状态信息输出动作作用于环境，然后接收到下一时刻状态信息和奖励。以众所周知的AlphaGo为例，盘面就是当前的状态，动作就是下一步往哪里落子，奖励
强化学习——股票预测项目复现2021-01-28 10:58:18

1.背景介绍之前学习百度强化学习7日打卡营-世界冠军带你从零实践时候，最后留下的一个大作业是股票预测环境：https://github.com/kh-kim/stock_market_reinforcement_learning，由于给出的一个推荐github项目是四年前，时间太久远，所以找了另一个，还是中文的，而且步骤看起来很详细。
深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制2021-01-27 09:31:55

我将文章发表在了古月居，一起来看看吧！戳这里猜你想看：深度强化学习专栏 —— 1.研究现状深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制深度强化学习专栏 —— 3.实现一阶倒立摆pybullet杂谈：使用深度学习拟合相机坐标系与世界坐标系坐标变换关系（一）Ubuntu助手 — 一
中学生学习心理02学习与学习理论03学习理论2021-01-22 13:29:34

一、学习的内涵 (一)学习的实质-单选，辨析个体在特定的情境下由于经验或反复练习而产生的行为或行为潜能的比较持久的改变关键词：（1）个体个体包括人+动物（2）练习或反复练习是后天的，不是先天的（3）持久喝了兴奋剂不算，这个是短暂的什么是人独有的：教育（二）学生学习的特点 1、学生
强化学习-简介2021-01-20 23:35:20

目录背景监督式学习非监督式学习强化学习强化学习五个方面Environment（环境）Reward（奖励）Policy（策略）训练代理的方法部署验证强化学习分类无模型的方法基于模型的方法总结背景强化学习是机器学习三大分支之一，除去强化学习外，还有监督式学习和非监督式学习，虽然本系列文章主要介绍强
强化学习相关资源汇总2021-01-16 13:00:12

强化学习（Reinforcement Learning）相关资源汇总（持续更新···）文章目录 1. 基础知识2. 相关课程3. 参考书籍4. 研究论文 1. 基础知识强化学习需要了解的5件事强化学习术语表（A-Z）5 Best Reinforcement Learning CoursesAn Introduction to Deep Reinforcement Learning
强化学习路线图2021-01-12 12:04:40

人工智能是21世纪最激动人心的技术之一。人工智能，就是像人一样的智能，而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中，感知解决what，深度学习已经超越人类水平；决策解决how，强化学习在游戏和机器人等领域取得了一定效果；认知解决why，知识图谱、因果推理、持续学
强化学习PARL——1. 简单认识2021-01-12 12:03:48

这个教程参考的是百度PaddlePaddle的RL系列教程：https://aistudio.baidu.com/aistudio/projectdetail/1445501 背景介绍第一章节属于基础内容，第二课的数学知识总结的很好 1. 开始 1.1 概念认识 1.1.1 强化学习 vs 其他强化学习与监督学习的区别强化学习、监督学习、非监督
【入门级别】模拟地下城与勇士(DNF)的装备强化2021-01-05 19:34:42

模拟地下城与勇士(DNF)的装备强化 tip1： DNF装备强化在+1～+3 不会失败； +4～+7，失败后物品原有强化等级降低1级； +8～+10，失败后掉3级； 10上11或以上就爆了。 tip2： DNF装备强化1～3级，成功率100% DNF装备强化3～4级，成功率95% DNF装备强化4～5级，成功率90% DNF装备强化5～6级，成功率80% DNF装备强化6～7级，成
并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（中篇：强化学习在大规模仿真环境下单步交互并行化设计的可行性）2021-01-04 17:03:58

本篇博客是前篇博客并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（上篇：强化学习在多仿真环境下单步交互并行化设计的可行性）的继续，文中代码地址为：https://gitee.com/devilmaycry812839668/Parallelism_Reinforce_CartPole 。 -----------------------------------
强化学习历史2020-12-29 23:04:38

强化学习历史 1911年，Thorndike提出效果律(Law of effect)，从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化，动物感到不舒服的行为会被弱化 1954年，马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习 1957年，Bellman提出求解最优控制问题的动态规划方法，并
团队项目心得2020-12-27 08:33:45

通过这个软工团队项目，分别从自己和团队两个方面对自己进行职业基础的强化，让我了解到我仅仅会写写代码，对未来工作知之甚少，之前对自己的代码不能有良好的代码规范。同时，在此基础上，团队项目作业，更是让我对以后的工作有了最基本了解。无论从分工上，从采取项目的进行流程上，都是需要我一
强化学习中状态值函数的求解＜强化学习深入浅出P39＞2020-12-11 21:01:47
强化学习：DDPG到MADDPG2020-12-10 10:57:21

目录策略梯度(Policy Gradient) 行动器-评判器方法(Actor-Critic) Deterministic Policy Gradient on-policy和off-policy DPG Deep Deterministic Policy Gradient Multi-agent Deep Deterministic Policy Gradient 多智能体强化学习背景 MADDPG MADDPG的实现参考文献本文
强化记忆22020-12-09 22:32:40

1、行内块元素：图片img src=“”、表单控件<input type="">，可以设置宽高且在一行显示（两个行内块元素间有空隙），代码换行被解析成空格 2、浮动元素全是块级元素，给行内元素添加float属性，相当于给行内元素添加了display：block属性，可以设置宽高了，但是在一行显示（两个元素间没有空隙） 3、块元
强化学习2020-12-05 19:00:31

强化学习强化学习强化学习 Python 还能实现哪些 AI 游戏？附上代码一起来一把！
《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法（重点为Qlearning）2020-12-04 20:31:02

《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法 1、时间差分方法与动态规划方法和蒙特卡罗方法的差异（1）动态规划方法（2）蒙特卡罗方法（3）时间差分方法 2、同策略的Sarsa方法和不同策略的Qlearning方法（1）Sarsa（2）Qlearning 3、基于python的编程（1）利用TD方法进行
深度学习DeepLearning实际案例操作2020-11-12 09:50:56

一：深度强化学习核心技术实战培训班时间地点：11 月 27 日— 11 月30 日北京(第一天报到授课三天；提前环境部署电脑测试)课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度强化学习课程五、多任务深度强化学习课程六、强化学习应用课程七、
【深度强化学习】1. 基础部分2020-10-19 21:34:54

【DataWhale打卡】第一天：学习周博磊讲的强化学习结合《深入理解AutoML和AutoDL》这本书中的强化学习的章节总结了基础部分。参考资料：https://github.com/zhoubolei/introRL 先导课程：线性代数、概率论、机器学习/数据挖掘/深度学习/模式识别编程基础：Python, PyTorch 强化学习在做
A Genetically Defined Compartmentalized Striatal Direct Pathway for Negative Reinforcement2020-09-18 19:04:07

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！ Cell 2020 Summary 　　背侧纹状体内的纹状体区室与强化学习和动机调节有关，但是纹状体神经元如何促进这些功能尚不清楚。在这里，我们显示了遗传确认的纹状体群体，该群体表达茶衫族锌指1 (Tshz1)并属于直接途径，驱动负强化，对
强化学习（6）---马尔可夫过程2020-09-06 20:32:13

一、概念 1、finite MDP：如果一个强化学习任务满足马尔科夫性质，那么就可以把这个任务叫做马尔科夫过程。如果状态空间和动作空间是有限的，那么就叫做有限马尔科夫过程，即finite MDP。 2、状态S、动作A、转移概率P、期望价值r、一个典型的finite MDP 由状态集、动作集和一步内的环境
vue关键知识强化2020-08-16 09:00:17

vue关键知识强化：包括/deep/（深度选择器）、@click.native、属性绑定简化写法（v-bind）、attribute属性的绑定和多个prop的简化写法（$attrs）,v-model的含义，原生事件监听器（$listeners）等 1./deep/（深度选择器）问题：vue组件中，在style设置为scoped的时候，里面在写样式对子组件是不生效的解决：使用

首页 < 4 5 6 7 8 > 尾页

ICode9

机器学习十讲----第十讲2021-02-06 22:35:43

学习进度笔记252021-02-05 19:32:03

机器学习--强化学习2021-02-05 18:34:36

时空AI技术：深度强化学习在智能城市领域应用介绍2021-02-02 16:00:02

强化学习——股票预测项目复现2021-01-28 10:58:18

深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制2021-01-27 09:31:55

中学生学习心理02学习与学习理论03学习理论2021-01-22 13:29:34

强化学习-简介2021-01-20 23:35:20

强化学习相关资源汇总2021-01-16 13:00:12

强化学习路线图2021-01-12 12:04:40

强化学习PARL——1. 简单认识2021-01-12 12:03:48

【入门级别】模拟地下城与勇士(DNF)的装备强化2021-01-05 19:34:42

并行化强化学习 —— 初探 —— 并行reinforce算法的尝试 （中篇：强化学习在大规模仿真环境下单步交互并行化设计的可行性）2021-01-04 17:03:58

强化学习历史2020-12-29 23:04:38

团队项目心得2020-12-27 08:33:45

强化学习中状态值函数的求解＜强化学习深入浅出P39＞2020-12-11 21:01:47

强化学习：DDPG到MADDPG2020-12-10 10:57:21

强化记忆22020-12-09 22:32:40

强化学习2020-12-05 19:00:31

《深入浅出强化学习原理入门》学习笔记（六）基于时间差分的强化学习方法（重点为Qlearning）2020-12-04 20:31:02

深度学习DeepLearning实际案例操作2020-11-12 09:50:56

【深度强化学习】1. 基础部分2020-10-19 21:34:54

A Genetically Defined Compartmentalized Striatal Direct Pathway for Negative Reinforcement2020-09-18 19:04:07

强化学习（6）---马尔可夫过程2020-09-06 20:32:13

vue关键知识强化2020-08-16 09:00:17

并行化强化学习 —— 初探 —— 并行reinforce算法的尝试（中篇：强化学习在大规模仿真环境下单步交互并行化设计的可行性）2021-01-04 17:03:58