ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

(Mdp)马尔可夫决策过程

2020-09-27 18:31:23  阅读:247  来源: 互联网

标签:状态 Pij 决策 马尔可夫 ..... Mdp X1 Xt


马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容:

  1. 马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,即Xt只与Xt-1有关,与{X0,X1,X2.....,Xt-2}无关,则认为该状态具有马尔科夫性。用公式描

    而具有马尔可夫性的随机序列X= {X0,X1.......,Xt,....}就是马尔可夫链。

    2. 离散状态的马尔可夫链:由定义在S空间的随机变量Xt(t= 0,1,2....)转移概率Pij。

    Pij= (Xt =i | Xt-1=j),i=1,2,..... j=1,2......

    其转移概率Pij可表示为状态转移矩阵:P,满足Pij>=0 且矩阵P的列向量之和为1.

 

 

 

 

           

 

标签:状态,Pij,决策,马尔可夫,.....,Mdp,X1,Xt
来源: https://www.cnblogs.com/wukaiqi/p/13741143.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有