首页 > 编程语言> 文章详细

ADP算法中AC网络的更新方式

2021-08-10 17:01:58 阅读：207 来源： 互联网

标签：数学公式 AC right frac ADP 算法 partial left lambda

以离散时间系统为例，对自适应动态规划（Adaptive Dynamic Programming，ADP）中Action Network和Critic Network两个网络的更新方式进行说明。

一、系统定义

1.状态方程 state equation

${X_{k + 1}} = {F_k}({X_k},{U_k})$（1）

其中数学公式: $ U $是控制指令，数学公式: $ F $是关于状态和控制的动力方程。

2.代价函数 cost function

$J = \sum \limits_{k = 1}^{N - 1} {\psi _k}\left( {{X_k},{U_k}} \right)$ (2)

其中数学公式: $ \psi $为效用函数。对公式2进重写让其从时间k开始

$ {J_k} = \sum \limits_{\widetilde k = k}^{N - 1} {\psi_{\widetilde k}}\left({{X_{\widetilde k}},{U_{\widetilde k}}} \right) $ (3)

可以对数学公式: $ {J_k} $进行一个拆分

$ {J_k} = {\psi_k} + {J_{k + 1}} $（4）

3.定义costate vector

定义在时间k的costate vector

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} $（5）

4.最优的必要条件

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = 0 $（6）

计算

$ \frac{{\partial {J_k}}}{{\partial {U_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {U_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $ $ = \left({\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda _{k + 1}} $（7）

结合公式（6）和（7）可以得出

$ \left( {\frac{{\partial {\psi_k}}}{{\partial {U_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {U_k}}})^T}{\lambda_{k + 1}} = 0 $（8）

结合公式（4）和（5）可以对costate vector进行重写

$ {\lambda_k} = \frac{{\partial {J_k}}}{{\partial {X_k}}} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + \left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_k}}}} \right) = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}\left( {\frac{{\partial {J_{k + 1}}}}{{\partial {X_{k + 1}}}}} \right) $（9）

所以可以得到数学公式: $ \lambda_k $和数学公式: $ \lambda_{k+1} $之间的关系式

$ {\lambda_k} = \left( {\frac{{\partial {\psi_k}}}{{\partial {X_k}}}} \right) + {(\frac{{\partial {X_{k + 1}}}}{{\partial {X_k}}})^T}{\lambda_{k + 1}} $（10）

公式（1）（8）和（10）必须同时求解，并配合适当的边界条件以求得最优控制的综合。

二、网络的训练

基于AC的ADP算法拥有两个网络分别是Action网络和Critic网络，Action网络主要的作用是根据状态信息生成控制指令，Critic网络的作用是生成costate vector用于调整两个网络的权重。

1.Action 网络的更新流程

第一步：输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $；
第二步：系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式（1）得到数学公式: $ X_{k+1} $
第三步：将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步：使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $，根据公式（8）计算目标的数学公式: $ U_k^t $
第五步：按照目标控制数学公式: $ U_k^t $来调整Action网络的权重

2.Critic网络的更新流程

第一步：输入状态数学公式: $ X_k $到Action 网络得到数学公式: $ {U_k} $；
第二步：系统模型按照已知的数学公式: $ X_k $和数学公式: $ {U_a} $根据公式（1）得到数学公式: $ X_{k+1} $
第三步：将数学公式: $ X_{k+1} $输入进Critic网络得到数学公式: $ \lambda_{k+1} $
第四步：使用数学公式: $ X_k $和数学公式: $ \lambda_{k+1} $，根据公式（10）计算目标的数学公式: $ \lambda_k^t $
第五步：按照目标costate数学公式: $ \lambda_k^t $来调整Critic网络的权重

参考：A single network adaptive critic (SNAC) architecture for optimal control synthesis for a class of nonlinear systems

标签：数学公式,AC,right,frac,ADP,算法,partial,left,lambda
来源： https://www.cnblogs.com/kzin/p/15124717.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

ADP算法中AC网络的更新方式

一、系统定义

二、网络的训练