ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Generalized Focal Loss V2论文翻译

2020-12-03 12:01:49  阅读:264  来源: 互联网

标签:Loss DGQP 边界 IoU GFLV2 V2 分布 Generalized LQE


Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection论文翻译

论文地址:Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection
代码地址:https://github.com/implus/GFocalV2

摘要

定位质量估计Localization Quality Estimation(LQE)是近年来密集目标检测器发展的关键和流行,它可以提供精确的排序分数,有利于非最大抑制处理和提高检测性能。作为一种常见的做法,大多数现有的方法都是通过与目标分类或边界框回归共享的常规卷积特征来预测LQE得分。在本文中,我们探索了一种全新的、不同于以往的基于边界框的四个参数的分布来预测LQE。在GFLV1中引入边界框分布作为一般分布,很好地描述了预测边界框的不确定性。这样的属性使得边框的分布统计量与实际的定位质量高度相关。具体来说,峰值较大的边框分布通常对应较高的定位质量,反之亦然。通过利用分布统计信息和真实定位质量之间的密切关系,我们开发了一个相当轻量级的分布导向的质量预测器Distribution-Guided Quality Predictor(DGQP),用于基于GFLV1的可靠LQE,从而产生GFLV2。据我们所知,这是第一次尝试在目标检测中使用高度相关的统计表示来促进LQE。大量的实验证明了该方法的有效性。值得注意的是,GFLV2 (ResNet101)在14.6 FPS时达到46.2 AP,在COCO test-dev上以绝对2.6 AP超过了之前最先进的ATSS基线(14.6 FPS时的43.6 AP),同时不牺牲训练和推理的效率。
在这里插入图片描述

图1:利用学习到的边框分布高度相关的统计量来指导更好地生成其估计的定位质量的动机。(a):说明GFLV1[18]的一般分布来表示边界框,它模拟了预测边的概率分布。(b):基于GFLV1模型,对COCO[22]数据集上所有验证图像计算得到的预测边框体总体分布的Top-1(四边均值)值与实际定位质量(预测与GT之间的IoU)之间关系的散点图。(c) 和 (d): 从(b)的两个具体例子中,尖锐的分布代表较高的质量,而平坦的分布通常代表较低的质量。绿色:预测的边框;白色:GT。

1.介绍

稠密目标检测器[28,23,42,33,18,27]直接通过特征图预测像素级的对象类别和边界框,由于其优雅而有效的框架而越来越受欢迎。该框架基础上的关键技术之一是定位质量评估(LQE)。在更好的LQE的帮助下,高质量的边界框往往比低质量的边界框得分更高,大大降低了非最大抑制(Non-Maximum suppression, NMS)处理中出现错误抑制的风险。
许多前人的研究[28、29、30、33、40、36、14、18、39、43、27]都对LQE进行了探索。例如YOLO家族[28,29,30]首先采用Objectness来描述定位质量,将其定义为预测框和ground-truth框之间的intersec- over- union (IoU)。随后,我们进一步探索并证明IoU在IoU- net[13]、IoU-aware[36]、PAA[14]、GFLV1[18]和VFNet[39]中是有效的。最近,FCOS[33]和ATSS[40]引入了Centerness中心度(距离目标中心的距离)来抑制低质量的检测结果。一般来说,上述方法都有一个共同的特点,即都是基于单纯的卷积特征,例如点、边界或区域的特征(图2 (a)-(g))来估计定位质量。
与以往的工作不同,本文探索了一个全新的视角,直接利用边界框分布的统计,而不是单纯的卷积特征来进行LQE(图2)。这里的边界框分布是GFLV1[18]的一般分布,学习每个预测边缘的离散概率分布(图1 (a))来描述边界框回归的不确定性。有趣的是,我们观察到一般的统计分布与其真正的定位质量有很强的相关性,如图1中所示(b)。在图1 ©和(d)中,边界框分布的形状(平整度)可以清楚地反映预测结果的定位质量,分布越尖锐,预测的边界框越准确,反之亦然。 因此,它可能更容易和非常有效地通过分布信息的引导来更好的LQE,因为输入(边框分布统计)和输出(LQE分数)是高度相关的。
受分布统计与LQE得分之间的强相关性的启发,我们提出了一个只有几十个(例如64个)隐藏单元的非常轻量级的子网络,在这些分布统计的基础上产生可靠的LQE分数,显著提高了检测性能。重要的是,它在实际应用中所带来的额外计算量可以忽略不计,而且几乎不影响基本目标检测器的训练/推理速度。在本文中,我们将这种轻量级子网络称为分布导向的质量预测器(DGQP),因为它依赖于分布统计的指导来进行质量预测。
通过引入轻量级的DGQP,通过统计边界框分布预测可靠的LQE分数,我们开发了一种基于GFLV1框架的新型密集物体检测器,即GFLV2。为了验证GFLV2的有效性,我们在具有挑战性的基准COCO[22]上进行了广泛的实验。值得注意的是,基于ResNet-101 [11], GFLV2实现了令人印象深刻的检测性能(46.2 AP),即在相同的训练计划下,在不牺牲训练和推理效率的情况下,比COCO test-dev上的最新ATSS基线(43.6 AP)提高了2.6 AP。

总而言之,我们的贡献如下:

  1. 据我们所知,我们的工作是第一次在端到端密集目标检测框架中,将边界框分布的统计与定位质量估计联系起来。
  2. 在实际应用中,GFLV2是相当轻量级和无成本的。它还可以很容易地插入到大多数密集的物体探测器,具有一致的大约2 AP增益,并且不会损失训练/推理速度。
  3. 我们的GFLV2 (Res2Net-101-DCN)在密集的目标检测器中,在COCO数据集上达到了极具竞争力的53.3 AP(多尺度测试)。

2.相关工作

在这里插入图片描述

LQE的形式: 早期流行的目标检测器[9,31,1,10]简单地将分类置信度作为LQE分数的公式,但两者之间存在明显的不一致性,这不可避免地降低了检测性能。为了缓解这个问题,AutoAssign[43]和BorderDet[27]使用了额外的定位特性来重新确定分类置信度,但它们仍然缺乏LQE的明确定义。
最近,FCOS[33]和ATSS[40]引入了一种新的LQE格式,称为Centerness,它描述了到物体中心的距离。虽然Centerness是有效的,但最近的研究[18,39]表明,它有一定的局限性,可能不是LQE的最佳选择。SABL[35]引入了边界buckets用于粗定位,并利用平均bucketing置信度作为LQE的公式。
经过多年的技术迭代[28、29、30、13、34、12、36、14、18、39],IoU作为LQE的一种优秀测量方法得到了深入的研究,并且越来越受欢迎。IoU首先在YOLO中被称为Objectness[28,29,30],其中网络被监督在预测框和ground truth之间产生估计的IoUs,以减少NMS中的排序基础。遵循类似的范式,IoU- net [13], Fitness NMS [34], MS R-CNN [12], IoUaware [36], PAA[14]利用一个单独的分支以IoU形式执行LQE。同时,GFLV1[18]和VFNet[39]通过将分类分数与IoU合并,重新形成联合表示,显示了一种更有效的格式。由于GFLV2的巨大成功[18,39],我们基于分类- iou联合表示[18]建立了GFLV2,并开发了一种可靠LQE的新方法。
LQE的输入特征: 如图2左侧所示,以往的工作直接使用卷积特征作为LQE的输入,只是在空间采样方式上有所不同。现有的方法[28,29,30,33,40,36,14,18]大多采用点特征(图2 (a))产生LQE评分,以提高效率。IoU- net[13]基于图2 (b)所示的区域特征预测IoU。BorderDet[27]设计了三种边界敏感特性(见图2 ©-(e)),以促进LQE。与BorderDet类似,在VFNet[39]中设计了星形采样方式(图2 (f))。另外,HSD[2]和RepPoints[38,4]通过可变形卷积关注具有已知位置的特征(见图2 (g))[5,46]。
上述方法主要集中于提取具有不同空间特征的判别卷积特征,以实现更好的LQE。与之前的方法不同,我们提出的GFLV2设计的很巧妙:通过其直接相关的变量——对边界框分布的统计量来预测LQE得分(见图2右侧)。如图3所示,与图2 (a)-(g)卷积特征比较,对边界框分布的统计可以同时达到很高的效率和精度。

3.方法

在这一节中,我们首先简要回顾了Generalized Focal Loss(即GFLV1[18]),然后根据相关概念和公式推导了提出的GFLV2。

3.1 Generalized Focal Loss V1

Classification-IoU联合表示该表示是GFLV1的关键组成部分,旨在减少训练和推理过程中定位质量估计和目标分类之间的不一致性。具体地说,给定一个类别标签为c{1,2,…, m} (m表示类别总数),GFLV1利用分类分支产生分类与IoU的联合表示为JJ = [J1, J2, …, Jm],表示为:
在这里插入图片描述
其中,IoU(bpred, bgt)表示预测边界框bpred与ground truth bgt之间的IoU。
边框表示的一般分布 :现在的检测器[31,21,33]通常用Dirac delta分布来描述边界框回归:y =∫+∞−∞δ(x −y)x dx。与它们不同的是,GFLV1引入了一个灵活的通用分布P(x)来表示边界框,其中边界看的每条边可以表示为:yˆ = ∫+∞−∞P(x)x dx =∫yny0P(x)x dx,在预定义的输出范围为[y0, yn]。为了与卷积网络兼容,将区间[y0, yn]离散为列表 [y0, y1, …, yi, yi+1, …, yn−1, yn],将连续域转换为离散域。区间为∆(∆ = yi+1 − yi, ∀i ∈ {0, 1, …, n − 1})。因此,给定离散分布特性∑ni=0P(yi) = 1,估计回归值yˆ可表示为:
在这里插入图片描述
与Dirac delta分布相比,一般分布P(x)能很好地反映预测质量(图1 ©-(d)),这是本文工作的基础。

3.2 Generalized Focal Loss V2

分解Classification-IoU表示:虽然联合表示解决了训练和测试过程中目标分类和质量估计不一致的[18]问题,但仅使用分类分支预测联合表示仍存在一定的局限性。在这项工作中,我们分解通过利用来自分类©和回归(I)分支的信息,显式地联合表示:
在这里插入图片描述
其中,C = [C1, C2, …, Cm], Ci ∈ [0, 1]表示总共m个类别的分类表示,I∈[0,1]是表示IoU表示的标量。
虽然J被分解为两个组成部分,但是在训练和测试阶段我们都使用最终的联合公式(即J),所以它仍然可以避免GFLV1中提到的不一致问题。具体来说,我们首先将分类分支中的C和回归分支中提出的Distribution-Guided Quality Predictor(DGQP)中的I合并为统一的形式J。然后,在训练时采用[18]中提出的Quality Focal loss (QFL)对J进行监督,并直接作为NMS评分用于推理。
在这里插入图片描述

Distribution-Guided Quality Predictor :DGQP是GFLV2的关键组件。它将学习到的一般分布P的统计量传递到一个小子网络中(见图3中的红色点框),得到预测的IoU标量I,有助于生成高质量的分类-IoU联合表示(Eq.(3))。按照GFLV1[18],我们采用该位置到边框四边的相对偏移量作为回归目标,用一般分布表示。为方便起见,我们将左、右、顶、底分别标记为{l, r, t, b},并定义w边的离散概率为Pw = [Pw(y0), Pw(y1),…, Pw(yn)],其中w {l, r, t, b}。
如图1所示,学习分布的平整度与最终检测到的边框的质量高度相关,可以通过一些相关的统计量来反映一般分布的平整度。因此,这些统计特征与定位质量有很强的相关性,可以减轻训练难度,提高估计质量。实际上,我们建议同时选择Top-k值和每个分布向量Pw的平均值,并将它们拼接起来作为基本的统计特征F ∈ R4(k+1)
在这里插入图片描述
其中 Topkm(·)表示计算Top-k值及其平均值的联合操作。Concat(·)表示通道拼接,选择Top-k值及其平均值作为输入统计量有两个好处:

  1. 由于Pw的和是固定的(即, ∑ni=0Pw(yi) =1), Top-k值及其均值基本可以反映分布的平整度:越大越尖锐,越小越平;
  2. Top-k和平均值可以使统计特征对其在分布域中的相对偏移量不敏感(见图4),从而得到不受对象尺度影响的鲁棒表示。

在这里插入图片描述
以一般分布的统计特征F作为输入,设计了一个非常小的子网络F(·)来预测最终的IoU质量估计,子网络只有两个完全连接(FC)层,分别采用ReLU[16]和Sigmoid激活函数。因此,IoU标量I可以计算为:
在这里插入图片描述
其中 δ 和σ分别表示 ReLU和d Sigmoid,W1 ∈ Rp×4(k+1) 并且 W2 ∈ R1×p。k表示Topk参数,p是隐藏层的通道尺寸(k=4,p=64是我们实验中的典型设置)。
复杂度 :GFLV2的总体架构如图3所示。值得注意的是,DGQP模块非常轻量,首先,它只带来成千上万的附加参数,与整个检测模型的参数数量相比,可以忽略不计。以ResNet-50[11]和FPN[20]的机型为例,DGQP模块的额外参数仅占0.003%。其次,DGQP模块的计算开销也非常小,因为它的结构非常轻。如表5和表8所示,在实际应用中,使用DGQP模块并没有降低原检测器的训练推理速度。

4.实验

实验设置 :我们在COCO benchmark[22]上进行实验,其中有着115K图像的trainval35k用于训练,5K图像的minival用于消融研究的验证。此外,我们从评估服务器获得了使用20K图像的test-dev进行测试开发的主要结果。为了公平比较,所有结果都是在mmdetection[3]下产生的,这里总是采用默认的超参数。除非另有说明,我们采用标准的1x学习计划(12 epoch),而没有多尺度的训练用于消融研究,基于ResNet50[11]主干。训练/测试细节遵循前面的工作[18,4]中的描述。

4.1 消融研究

输入统计量的组合 :除了纯粹的Top-k值之外,还有一些统计数据可以反映分布的更多特征,比如这些Top-k数的均值和方差。因此,我们通过确定k=4和p=64来研究它们的组合作为输入的效果。从表1中,我们观察到前4个值及其平均数表现最好 。因此,在下面的实验中,我们默认使用这种组合作为标准统计输入。
在这里插入图片描述
DGQP的结构: 然后我们研究了DGQP中不同参数k、p对检测性能的影响。具体来说,我们在表2中通过固定一个和改变另一个来报告k和p的影响。观察到k=4,p=64在各种组合中稳定地达到最佳精度。
在这里插入图片描述
输入特征的类型: 据我们所知,在文献中,提出的DGQP是第一个使用已知边界框分布的统计数据来生成更好的LQE分数的。由于输入(分布统计量)和输出(LQE分数)高度相关,我们推测它可能比现有方法中提出的普通卷积输入更有效或更高效。因此,我们确定DGQP的隐藏层维数(即p=64),并将我们的统计输入与大多数现有的可能类型的卷积输入进行比较,分别来自点(a)、区域(b)、边界(c)-(e)、规则点(f)和可变形点(g)(图2)。表3显示,与各种卷积特征相比,我们的分布统计信息在总体AP中表现最好,在推理中也最快。
在这里插入图片描述

分解形式的用法 :然后我们调查在使用分布统计数据的情况下, Classification-IoU联合表示的最好配方。基本有两种格式:组合形式和提出的分解形式(3.2节),如图5所示。这里分解的(图5左边)表示通过两个分量的乘法可以明确分解最终的联合表示,即Eq.(3)中的J = C×I。
在这里插入图片描述
由图5右(“Composed”)可知,J是通过FC层直接得到的,其输入特征通过分布统计信息丰富(d为附加特征的维数)。从表4可以看出,我们提出的分解式无论在精度还是运行速度上都优于不同d设置的组合式。
在这里插入图片描述
密集检测器的兼容性 : 由于GFLV2非常轻量,可以适用于各种类型的密集检测器,我们将其应用于一系列最近流行的检测方法中。对于那些不支持边框的分布表示的检测器,我们进行了最小且必要的修改,以使其能够为边界框的每个边生成分布。从表5的结果可以看出,GFLV2可以在目前流行的密集检测器中持续改进大约2AP,且不会降低推理速度。
在这里插入图片描述

4.2 与SOTA方法的比较

在本节中,我们将在表7中比较COCO test-dev数据集上GFLV2和SOTA的方法。按照之前的工作[21,33],多尺度([480,960])训练策略并采用 2x学习计划(24个epoch)。为了公平比较,本文报告了所有方法的单模型单尺度测试结果,包括相应的推理速度(FPS)。我们还报告了额外的GFLV2多尺度测试结果。图6展示了精度-速度折衷的可视化,我们可以看到GFLV2将精度-速度边界的包络线推到了一个新的高度。我们使用单一Res2Net-101-DCN模型得到的最佳结果达到了相当有竞争力的53.3 AP。
在这里插入图片描述

在这里插入图片描述

4.3 分析

虽然提出的DGQP模块已经被证明可以改善密集目标检测器的性能,我们也想了解它的机制是如何运作的。
DGQP改善LQE :为了评估DGQP是否有利于定位质量的估计,我们首先在coco minival上的所有正样本上得到了预测的ious(由四个有代表性的由iou作为质量估计标签的模型给出)及其对应的真实iou。然后计算它们的Pearson相关系数(PCC),见表6。它证明了GFLV2中的DGQP确实提高了估计的IoUs和ground-truth之间的线性相关性,与GFLV1相比提高了相当大的幅度(+0.26),这最终导致了绝对的0.9 AP增益。
在这里插入图片描述
DGQP可以缓解学习困难 :图8显示了LQE分数下的训练损失,其中GFLV2中的DGQP成功地加速了训练过程,收敛到较低的损失。在这里插入图片描述
DGQP输入/输出的可视化 :为了研究DGQP的行为,我们在图9中绘制了它的输入和相应的输出。为了更好地查看,我们选择平均值Top1值来表示输入统计信息。可以观察到输出与预期的输入高度相关。
在这里插入图片描述
训练/推理效率 :我们还在表8中比较了最近最先进的密集检测器的训练和推理效率。请注意,PAA[14]、RepPointsV2[4]和BorderDet[27]在训练过程中不可避免地带来了时间开销(分别为52%、65%和22%),后两者还分别牺牲了30%和14%的推理速度。相比之下,我们提出的GFLV2可以在保持训练和推理效率的前提下获得最佳性能(41 AP)。
在这里插入图片描述

定量结果 :在图7中,我们定性地证明GFLV2如何利用其更可靠的IoU质量评估来维持NMS期间的准确预测的机制。不幸的是,对于其他检测器来说,高质量候选检测器由于其相对较低的定位信任度而被错误地抑制,最终导致性能下降。
在这里插入图片描述

5.结论

在本文中,我们建议学习可靠的定位质量估计,通过统计边界框分布的指导。这在文献中是一个全新的、完全不同的视角,在概念上也是有效的,因为分布的信息与真实的定位质量高度相关。在此基础上,我们开发了一个密集目标检测器,即GFLV2。对COCO数据集进行了大量的实验和分析,进一步验证了该算法的有效性、兼容性和有效性。我们希望GFLV2可以作为社区简单而有效的基线。

标签:Loss,DGQP,边界,IoU,GFLV2,V2,分布,Generalized,LQE
来源: https://blog.csdn.net/Q1u1NG/article/details/110226732

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有