为什么Adam 不是默认的优化算法?

2022-08-25 11:00:59 阅读：200 来源： 互联网

由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越，但Adam和其他自适应优化方法与随机梯度下降(SGD)相比，有时的效果并不好。这些方法在训练数据上表现良好，但在测试数据却差很多。

最近，许多研究人员已经开始针对这个问题进行研究，尤其是我们最常用的Adam。本篇文章将试着理解一下这些研究结果。

Adam收敛速度更快，但最终的结果却并不好！

为了充分理解这一说法，我们先看一看ADAM和SGD的优化算法的利弊。

传统的梯度下降是用于优化深度学习网络的最常见方法。该技术在1950年代首次提出，可以通过观察参数变化如何影响目标函数，选择一个降低错误率的方向来更新模型的每个参数，并且可以进行继续迭代，直到目标函数收敛到最小值。

SGD是梯度下降的一种变体。SGD并不对整个数据集执行计算——而是只对随机选择的数据示例的一个小子集进行计算。在学习率较低的情况下，SGD的性能与常规梯度下降相同。

Adam的优化方法根据对梯度的一阶和二阶的估计来计算不同参数的个体自适应学习率。它结合了RMSProp和AdaGrad的优点，对不同的参数计算个别的自适应的学习率。与RMSProp中基于平均第一阶矩(平均值)来调整参数学习率不同，Adam还使用了梯度的第二阶矩(非中心方差)的平均值。

上图来自cs231n，根据上面的描述Adam能迅速收敛到一个“尖锐的最小值”，而SGD计算时间长步数多，能够收敛到一个“平坦的最小值”，并且测试数据上表现良好。

完整文章：

https://avoid.overfit.cn/post/0ef6af02aa2947bca154a89cc9c67436

标签：梯度,默认,学习,算法,参数,Adam,优化,SGD
来源： https://www.cnblogs.com/deephub/p/16623542.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

为什么Adam 不是默认的优化算法?