Squeeze-and-Attention Networks for Semantic Segmentation

2020-07-24 19:34:11 阅读：491 来源： 互联网

标签：Segmentation Semantic 像素分组 SANet SA Squeeze pixel grouping

CVPR 2020

Motivation

1. 以前的分割网络都是只关注像素级别的预测，忽略了像素分组。但本文认为语义分割可以分为explicit pixel-wise prediction and implicit pixel grouping. 。为了解决像素分组的问题，论文引入了SA model，并且其结果还可以更好的指导像素的预测

2. 受Squeeze-and-Excitation Networks【SENet】的启发，该文中SANet扩展SENet并引入了channel attention通过通道之间的相关性把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。

SANet与SENet的不同之处：

（1）SA模块的注意通道采用平均池化的方法下采样本特征图，得到的是attention convolution channel，然后再上采样到主干网络中，【上采样的目的是为了和RESNet有相同的维度】

（2）SE model不能保持spatial information,而SA model以扩张的FCN作为主干网络，增加了spatial features来进行pixel level prediction【SA保留了spatial information】

Pixel-group

Pixel grouping：强调像素之间的联系
我们引入了像素分组的第二个子任务，直接鼓励属于同一类的像素被分组在一起，而不受空间限制

Model

w(欧米伽)用于重新标定输入的feature map通道的学习权重。【怎么重新标定的呢？见下图】

备注：1、蓝色-Squeeze操作，Global average pooling用来计算channel-wise的统计量；粉色-Excitation操作；黄色-Reweight操作；

图片来源于：https://blog.csdn.net/Z199448Y/article/details/88866965

SANet：

LOSS Function：

可以看到作者语义分割网络一共三个损失，其中Lmask 和Lden计算每个像素的分类损失并求平均，也就是经典的语义分割损失。而Lcat计算的是图像多标签二分类的分类损失

Questions：

1. 论文作者没有提到用Sigmoid或Softmax计算注意力，而是直接用卷积结果作为注意力

2.grouping在哪里体现？感觉本质上还是per-pixel classification，只是从softmax变成了每类的二分类。

标签：Segmentation,Semantic,像素,分组,SANet,SA,Squeeze,pixel,grouping
来源： https://www.cnblogs.com/spore/p/13374035.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。