首页 > 其他分享> 文章详细

强化学习概念

2020-03-11 12:42:06 阅读：339 来源： 互联网

标签：基于概率 based 学习概念 Sarsa 强化 Model

文章目录

RL算法种类
强化学习方法

Model-free 和 Model-based
基于概率和基于价值
回合更新和单步更新
在线学习和离线学习

RL算法种类

通过价值选行为：q learning, sarsa（使用表格学习）和deep q network（使用神经网络学习）
直接输出行为：policy gradients
想象环境并从中学习：model based RL

强化学习方法

Model-free 和 Model-based

Model-free 的方法有很多, 像 Q learning,Sarsa,Policy Gradients
都是从环境中得到反馈然后从中学习.而 model-based RL 只是多了一道程序, 为真实世界建模, 也可以说他们都是
model-free 的强化学习, 只是 model-based 多出了一个虚拟环境。
Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略。

基于概率和基于价值

基于概率是强化学习中最直接的一种, 能通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 所以每种动作都有可能被选中, 只是可能性不同. 而基于价值的方法根据最高价值来选着动作, 相比基于概率的方法, 基于价值的决策部分更为铁定, 就选价值最高的, 而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到他.
对于选取连续的动作, 基于价值的方法是无能为力的.而基于概率的方法的优点之一是用一个概率分布在连续动作中选取特定动作。
基于概率： Policy Gradients
基于价值：Q learning,Sarsa 等
Actor-Critic：actor 会基于概率做出动作, 而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程.

回合更新和单步更新

回合更新制：Monte-carlo learning 和基础版的 policy gradients 等
单步更新制：Qlearning, Sarsa, 升级版的 policy gradients 等
单步更新更有效率, 所以现在大多方法都是基于单步更新

在线学习和离线学习

最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda
最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.

标签：基于,概率,based,学习,概念,Sarsa,强化,Model
来源： https://blog.csdn.net/komorebi6/article/details/104662248

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9