ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

强化学习之基于表格型方法的规划和学习(六)-- 决策时规划

2021-10-11 20:32:14  阅读:97  来源: 互联网

标签:状态 表格 动作 -- 决策 学习 当前 规划


注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第八节

我们在之前提过,规划用通俗的语言来解释就是分析已有的东西,做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。

后台规划

以动态规划和Dyna为代表的方法从环境模型(单个样本或概率分布)生成模拟经验,并以此为基础采用规划来逐步改进策略或价值函数。【可以视为就是之前收到分析已有的东西】
在为当前进行动作选择之前,规划过程都会预先针对多个状态的动作选择所需要的表格条目(表格型方法)或数学表达式(近似方法)进行改善。在这种运行方式下,规划并不仅仅聚焦于当前状态,还要预先在后台处理其它的多个状态。
【规划时,基于历史信息得到全局最优。先分析历史后作出决策,侧重于利用全局信息(如值函数)】

决策时规划

遇到每个新状态后才开始并完成规划,计算过程中输出的是单个动作。
这种规划针对的是当前的状态,会评估不同的动作导致的结果。
【下棋时思考到底怎么走才是比较好的,思考的过程就是决策时规划】

参考链接:
8.8 决策时规划 - 张会文的文章 - 知乎
https://zhuanlan.zhihu.com/p/60465725

标签:状态,表格,动作,--,决策,学习,当前,规划
来源: https://www.cnblogs.com/yuyuanliu/p/15394780.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有