权重衰减（weight decay）与学习率衰减（learning rate decay）

2020-03-02 14:43:09 阅读：998 来源： 互联网

标签：weight decay rate 正则 L2 learning 衰减

权重衰减（weight decay）L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

1.1 L2正则化与权重衰减系数

L2正则化就是在代价函数后面再加上一个正则化项：

遇到这种情况通常可以通过适当降低学习率（learning rate）来实现。但是，降低学习率又会延长训练所需的时间。学习率衰减（learning rate decay）就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是：学习率随着训练的进行逐渐衰减。学习率衰减基本有两种实现方法：

线性衰减。例如：每过5个epochs学习率减半。
指数衰减。例如：随着迭代轮数的增加学习率自动发生衰减，每过5个epochs将学习率乘以0.9998。具体算法如下：

decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)其中decayed_learning_rate为每一轮优化时使用的学习率，learning_rate为事先设定的初始学习率，decay_rate为衰减系数，decay_steps为衰减速度。

Reference：（1）学习率衰减部分内容和图片来自：学习率衰减（learning rate decay）（2）神经网络学习率（learning rate）的衰减

![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20200302141820883.jpg)

kyle1314608 发布了259 篇原创文章 · 获赞 7 · 访问量 2万+ 私信关注

标签：weight,decay,rate,正则,L2,learning,衰减
来源： https://blog.csdn.net/kyle1314608/article/details/104610937

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

权重衰减（weight decay）与学习率衰减（learning rate decay）

权重衰减（weight decay）L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

1.1 L2正则化与权重衰减系数