神经网络优化-动量梯度下降法(牛顿法)

2022-07-31 14:33:51 阅读：126 来源： 互联网

背景

对于标准梯度下降过程，w_t的更新是w_t=w_t-1-△w，而w_t=w_t-1-△w仅仅是对于当前点w_t的△w，没有对于历史数据的考量（通俗点说叫经验教训）

结果就是下降（优化）过程前进方向速度缓慢，同时产生振荡（如图红线）

据此引入冲量v，令v_t=v_t-1-△w，由迭代思想知冲量v代表着从初始到当前△w的累积（即过程中对于各个纬度进行经验累积，具有经验教训的△w），并更新w_t=w_t-1-v_t，则对于梯度下降有根据纬度的修正（前进方向促进，无效振荡方向削弱）

再进一步，由于当步数逐渐多了之后，前面的梯度和当前的梯度已有所区别，所以以往的梯度对当下的影响应该削弱，所以对v的构成进行加权，如图公式v_t = βv_t-1+(1-β)△w

另一个角度

由指数加权均值计算原理(https://www.cnblogs.com/toriyung/p/16535030.html)可知，梯度更新过程是对进行指数加权均值计算得出的dω进行更新，由于在振荡方向，均值趋近0；前进方向一致，均值保持不变或增大，实现了目的

本来应对点w进行求导，但加入了代表惯性的冲量v进行求导，实现了超前的效果

标签：梯度,均值,前进方向,神经网络,wt,vt,动量,冲量
来源： https://www.cnblogs.com/toriyung/p/16467289.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

神经网络优化-动量梯度下降法(牛顿法)