ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

https://blog.nex3z.com/category/reinforcement-learning/

2020-10-22 12:00:53  阅读:223  来源: 互联网

标签:category 状态 泛化 编码 特征 区分 reinforcement learning 瓦片


 

https://blog.nex3z.com/category/reinforcement-learning/

 

[RL Note] 使用监督学习估计价值函数

 

  通过泛化和区分能力的程度,可以对各种方法进行分类。表格方法具有高区分能力,但每个状态对应一个价值,完全不能泛化。另一个极端是让所有状态具有相同的价值,完全泛化但状态间没有区分。理想的方法具有高泛化和高区分,但通常难以达到,需要在泛化和区分间做出取舍,例如将相似的状态合并并赋予相同的价值。

  

[RL Note] 线性方法的特征构建

Contents [show]

1. 粗编码

  前文中提到,对于表格型的价值函数,可以通过对状态进行独热编码来构建特征,以此转换为线性函数的形式。如果状态非常多,独热编码后的特征向量就会非常长。一种更短的编码方式是先对近似的状态进行聚合,再对聚合后的状态进行独热编码

  状态聚合通常只将一个状态只被聚合到一个类里,但这并不是强制要求。如图 1 所示,使用若干个圆对状态空间进行划分,每个特征对应一个圆。如果状态在一个圆内,则对应的特征为 11,称为出席;否则对应的特征为 00,称为缺席。这样的 00-11 特征称为二值特征。

图 1

  注意圆与圆之间可以有重叠,这意味着状态向量不再是独热编码,而是可以有多个 11。这种表示状态重叠性质的特征称为粗编码(coarse coding)。这里的关键是状态重叠,而不一定用圆进行分割或者使用二值特征。

  对状态进行粗编码后,对一个状态的更新,会影响到其他具有重叠特征的状态。例如在线性方法中使用图 1 所示的粗编码方法,每个圆对应一个特征,也就对应一个权重。训练一个状态点(图 1 中 

标签:category,状态,泛化,编码,特征,区分,reinforcement,learning,瓦片
来源: https://www.cnblogs.com/cx2016/p/13857453.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有