ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Batch Normalization原理理解与作用

2020-03-14 20:46:33  阅读:4384  来源: 互联网

标签:batch Batch Internal Normalization 原理 隐藏 输入


一、原始神经网络层和Internal Covariate Shift问题

在原始DNN中,隐藏层(HiddenLayer)将输入x通过系数矩阵W相乘得到线性组合z=Wx,再通过激活函数a=f(z),得到隐藏层的输出a(X可以为输入层输入或者上一个隐藏层的输出),具体结构如下:
在这里插入图片描述
图中为一个批次(batch)的样本在隐藏层的传播过程。由于批次的不断传入和训练,DNN内部参数在不断改变,导致每一次隐藏层的输入分布不一致,这不符合机器学习中的IID假设(独立同分布假定)。也就是在训练过程中,隐层的输入分布老是变来变去,这就产生了内部协变量偏移问题(Internal Covariate Shift).

二、Batch Normalization

针对上面的协变量偏移问题,Google于2015年提出了Batch Normalization算法(BN)。BN通过对隐藏层线性组合输出z=Wx进行正态标准化z’=normalization(z),再对标准化的输出z’进行尺度放缩和平移变换,使隐藏层的输出分布一致(注意:针对z=Wx进行标准化,而不是通过激活函数a=f(z)进行标准化)。
具体的Batch Normalization如下:
在这里插入图片描述
带有Batch Normalization处理的隐藏层结构如下:
在这里插入图片描述
其中参数γ和β是可以通过训练得到的。而在训练中μ和σ为该batch数据z的均值和方差。在预测时,μ和σ分别使用每个batch的μ和σ的加权并平均,其中起始输入的batch的权重较低,后面输入的batch的权重较高。

二、Batch Normalization的优点

BN可以把隐层神经元激活输入z=WX从变化不拘一格的正态分布拉回到了均值为0,方差为1的正态分布。使得隐藏层的输入分布一致,这解决了前面的协变量偏移问题(Internal Covariate Shift)。
同时,激活函数恰恰在中间区域的梯度是最大的,由于模型使用随机梯度下降(SGD),这使得模型的训练使不会出现梯度弥散或者梯度忽大忽小的问题,同时参数的收敛速度更快。
在这里插入图片描述
具体总结的优点如下:

  • 解决内部协变量偏移 (Internal Covariate Shift)
  • 模型收敛加速
  • 解决梯度弥散问题 (gradient vanish)
  • 使模型正则化具有正则化效果
  • 参过程简单,对于初始化要求没那么高

标签:batch,Batch,Internal,Normalization,原理,隐藏,输入
来源: https://blog.csdn.net/u011517132/article/details/104866516

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有