标签:Convolutional Rethinking Pyramidal 卷积 网络 特征 大小 金字塔 通道
地址:https://arxiv.org/pdf/2006.11538.pdf
github:https://github.com/iduta/pyconv
目前的卷积神经网络普遍使用3×3的卷积神经网络,通过堆叠3×3的卷积核和下采样层,会在减少图像的大小的同时增加感受野,使用小尺度的卷积核存在两个问题:
- 实际感受野的大小比理论上的感受野大小要小得多。
- 在没有获得足够的上下文信息之前就对输入图像进行下采样,会影响学习过程和网络的识别性能。由于感受野不足够大来捕获场景中不同的依赖,以至于有用的细节就损失掉了。
大体来说就是不同对象在不同场景中可能出现各种各样的大小,或者在同一场景中,相同对象也可能出现不同的大小,使用传统的3×3卷积就不能够学习到这种多样性。
主要贡献:提出了金字塔卷积,能够捕获不同层级的细节信息,该网络是有效的,与标准的卷积相比只增加了少量的参数量和计算量,并将该网络扩展到了图像分类、场景识别、语义分割、目标检测、视频分类中。
直接看金字塔卷积,很直观的就是在空间维度上,卷积核大小从上至下依次减少,在通道维度上,卷积核的数量(通道的数目)依次增加,最后这些特征图拼接起来。
这里要提一下参数量parameters和浮点数计算量FLOPs的计算公式:
$K_{1}$表示的是卷积核的大小,$FM_{i}$表示输入特征图的通道数,$FM_{o} $表示输出的通道数,W、H表示输出特征图的宽和高。
另一个就是组卷积:
将特征按通道进行分组,然后分别进行卷积操作。
上述分别说明了每一个层的卷积操作所带来的参数量和浮点数计算量。
另外还强调了,为了简便创造出不同的金字塔卷积的网络,每层的金字塔卷积输入的特征图数目、每层的金字塔的分组通道数、每层的金字塔卷积的输出特征图数目最好是2的幂。
金字塔卷积网络应用在图像分类中?
瓶颈金字塔残差块:
所提出的网络结构:
需要注意的是该网络与原始的残差网络相比,去掉了最初的max pooling。也就是说现在4组卷积块都是在第一个block是进行下采样的。具体原因还是直接看英文比较好:
其余的任务就不仔细看了,知道大体架构差不多了。
金字塔卷积网络应用在语义分割中?
金字塔卷积网络应用在目标检测中?
部分结果:
标签:Convolutional,Rethinking,Pyramidal,卷积,网络,特征,大小,金字塔,通道 来源: https://www.cnblogs.com/xiximayou/p/13184551.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。