Discovering symbolic policies with deep reinforcement learning

2022-05-19 00:00:42 阅读：210 来源： 互联网

标签：符号一个 symbolic 解释性 reinforcement 维度神经网络 policies policy

发表时间：2021（ICML 2021）
文章要点：这篇文章想说神经网络的解释性太差，用简单的符号式子来表示策略具有更好的解释性，而且性能也不错。这里符号式子就是一个简单的函数。作者就提出了一个叫deep symbolic policy的算法来搜索symbolic policies。算法先有一个Policy Generator模块，来构建一个具体的策略表达式，然后有一个Policy Evaluator模块，就是在环境里测试这个policy，得到reward。这个reward再用来更新符号policy。
具体的，Policy Generator就是一个树结构，通过选择token构建出一个具体的函数形式。这里token设置为

运算符，某个维度的状态，以及常数。树的叶子结点就是状态和常数，中间节点就是运算符，这样就构建了一个二叉树，然后这个二叉树通过depth-first, then left-to-right的方式就可以得到一个具体的式子了。具体去优化这个符号表示的时候，是用自回归RNN去做的（optimize distributions over sequences using an autoregressive recurrent neural network (RNN)）。具体如总的流程图所示，把符号一个一个输入到RNN网络中，得到下一个符号，最终得到一个policy。这里我感觉不说这个树结构也是没问题的，毕竟在优化过程中根本用不到这个结构。然后就用很常见的policy gradient去优化这个RNN。作者还非要说一句用的是risk-seeking policy gradients

其实就是把前百分之多少的好的样本拿来做policy gradient。然后就结束了。
注意这里只能做到优化一个维度的动作，如果要做到高维的动作空间，这个计算量会指数增加。作者为了解决这个问题，搞了一个叫anchor model的model distillation方式。具体来说就是先在这个问题上训练一个神经网络的policy。然后训练符号策略的时候，一个维度一个维度的训练，其他维度的动作先用这个神经网络的policy直接输出，这样一个维度一个维度的进行搜索，最终把所有维度都搜索完。

最后搜出来了下面这些式子

总结：感觉就是把网络表示的policy搞到一个简单的函数形式上，然后就说这个简单的函数效果足够好了，而且解释性更好。感觉没啥用啊。而且针对函数形式，需要具体设计，控制搜索范围，还要定组合规则，比如exp外面不能套log之类的。最后为了提高效率，还搞了个hierarchical entropy regularize和soft length prior的trick，感觉并不好用。
疑问：就算是弄成了符号表达，知道了具体的形式，也只是变成了一个比神经网络更简单的函数，感觉可解释性还是不强啊？
做到高维的时候还借助的神经网络的效果，这个就算效果超过了神经网络，也说明不了什么问题啊？

标签：符号,一个,symbolic,解释性,reinforcement,维度,神经网络,policies,policy
来源： https://www.cnblogs.com/initial-h/p/16286887.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Discovering symbolic policies with deep reinforcement learning