Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks

2021-11-20 21:31:59 阅读：261 来源： 互联网

标签：Layer Based Neural 网络 ResNet 图像 227 101 我们

4.2 Fine-Grained Classification
细粒度分类问题提出了一个非常特殊的挑战：区分两类的信息通常隐藏在图像的很小一部分中，有时在低分辨率下无法解析。在这种情况下，显着性采样器可以发挥重要作用：放大图像的重要部分以尽可能多地保留它们的像素并帮助最终决策网络。在这个实验中，我们使用包含 5,089 种动物的 iNaturalist 数据集来研究这个问题 [29]。我们的评估是使用验证集进行的，因为测试集是私有的并且是为挑战而保留的。

在这个实验中，我们将在 ImageNet 数据集 [28] 上预训练的 ResNet-101 [4] 模型用于任务网络 ft，因为它在图像分类中表现出非常好的性能。我们对任务和显着性网络 ft 和 fs 使用了 227×227 的输入分辨率。作为显着网络 fS，我们使用 ResNet-18 的初始 14 层，尽管其他显着网络的性能可以在 Tbl.3 中找到。
表 3. 显着网络消融：我们测量了不同深度的显着网络 fs 对 iNaturalist 细粒度分类任务的影响。
作为此任务的基线，我们使用了与之前相同的方法，再次使用 ResNet-101 作为基础模型。对于可变形卷积网络，我们根据原始论文 [14] 中的说明进行了网络修改。我们还测试了 STN 的仿射和 TPS 版本（STN 仿射和 STN TPS）以及直接网格估计器。与我们的方法相同，这些基线可以在训练时间内访问原始 800×800 像素图像。在测试时，该方法获得了 512×512 像素的中心裁剪。为了公平起见，定位网络类似于 fs。为了测试单独的高分辨率输入是否可以提高基线 Resnet-101 网络的性能，我们还使用 [15] 的类激活映射方法（CAM ). 我们选择了最大激活值最大的类，并像原始论文一样计算边界框。然后我们从原始输入图像中裁剪该区域并将其重新缩放为 227×227 分辨率。这些裁剪被用作 ResNet-101 227×227 网络的输入，用于最终分类。

表 2 显示了各种模型的分类准确率比较。我们的模型在 top-1 和 top-5 准确率上分别显着优于 ResNet-101 基线 5% 和 3%。基于 CAM 的方法的性能更接近我们的方法，因为它受益于强调图像细节的相同想法。然而，我们的方法仍然表现得更好，这可能是因为它具有更大的灵活性，可以非均匀地和选择性地放大某些特征而不是其他特征。它还具有能够放大任意数量的非并置图像位置的主要好处，而对作物这样做涉及事先确定作物的数量或具有建议机制。
表 2. iNaturalist 细粒度分类结果：在 iNaturalist Challenge 2017 数据集的验证集上的 top-1 和 top-5 准确性比较。
空间变换器、网格估计器和可变形卷积的性能与 ResNet-101 基线相似或略好。与我们的方法一样，这些方法受益于将注意力集中在图像特定区域的能力。然而，空间变换器的仿射版本在整个图像上应用均匀变形，这可能不是特别适合任务，而更灵活的 TPS 版本和网格估计器，理论上可以更接近地模拟引入的采样通过我们的方法，发现更难优化并且一直被发现表现更差。最后，可变形卷积方法无法访问全分辨率图像，并且使用复杂的参数化，这使得其训练非常不稳定。相比之下，我们的方法受益于这样一个事实，即神经网络具有预测显着图像元素的自然能力 [30]，因此优化可能会容易得多。

为了证明我们声称显着采样器可以使不同的任务网络架构受益，我们使用 Inception V3 架构 [31] 重复我们的实验。原始性能已经非常高（top-1 和 top-5 分别为 64% 和 86%），因为它使用了更高分辨率（299）和更深的网络，但是我们的采样器在 top-1 中的性能仍然是 66%前 5 名中有 87%。

显着性网络重要性：在 Tbl.3 中，我们重新训练了 ResNet-101
不同深度的显着网络fs。我们在实验中使用了 ResNet-18 的不同消融，具有 6、10 或 14 层（相当于一次添加一个块来构建 ResNet-18）。整个网络的性能随着显着性模型的复杂性而增加，但收益递减。

4.3 CUB-200
为了进一步证明我们的模型在不同数据集上有用，我们在 CUB-200 数据集 [32] (Tbl.4) 中对其进行了评估。尽管 CUB-200 也是一个细粒度的识别数据集，但与 iNaturalist 数据集相比，它明显更小，并且图像在主体周围的构图更好（见图 6）。
图 6. CUB-200 数据集采样器行为的可视化：我们展示了在 CUB-200 数据集中使用显着性采样器训练的 ResNet-50 的采样图像。显着性放大了相关的图像区域，例如鸟的头部。
我们使用 ResNet-50 作为我们的任务网络，使用 ResNet-18 的最初 14 层作为我们的显着网络。通过添加我们的采样层，我们实现了 2.9% 的准确度提升，这低于 iNaturalist 中的提升，这可能是因为在 CUB-200 中感兴趣的对象被更紧密地裁剪。与 DT-RAM[33]（CUB-200 中表现最好的模型之一）相比，我们的方法使用更简单的模型，比 RN-50 DT-RAM 的可比 224×224 版本的性能高 1.7%。我们的方法不如 448×448 分辨率版本的 DT-RAM 准确，但后者平均使用大约 2 次通过 RN-50 并且更大的输入尺寸导致更高的计算成本。

标签：Layer,Based,Neural,网络,ResNet,图像,227,101,我们
来源： https://blog.csdn.net/weixin_47890036/article/details/121445364

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Learning to Zoom: a Saliency-Based Sampling Layer for Neural Networks