进一步正样本分配OTA-Optimal Transport Assignment for Object Detection

2022-07-01 16:34:36 阅读：246 来源： 互联网

标签：gt OTA Object matching Detection cost anchor cls

论文：OTA: Optimal Transport Assignment for Object Detection

论文链接：https://arxiv.org/abs/2103.14259

代码链接：https://github.com/Megvii-BaseDetection/OTA

文章目录

目标检测的一个底层问题是标签分配问题，比如网络预测10000个检测框，为了训练网络，首先需要知道这10000个检测框的标签是什么？这个问题看似简单，然而实做起来并不容易，比如如何处理模糊标签？正样本数多少为合适？不同的标签分配策略会对模型性能带来很大影响，本文介绍的这个OTA标签分配方法提供了一个很好的解决思路。

1 什么是标签分配？

目标CNN-based的目标检测器是预测 pre-defined anchors 的类别 (cls) 以及偏移量 (reg) 。
为了训练目标检测器，需要为每个anchor 分配 cls 和 reg 目标，这个过程称为标签分配或者正采样。
一些经典的标签分配方法：

RetinaNet、Faster-RCNN：使用 pre-defined anchors 与 groudtruth 的 IoU 阈值来区分正负样本；
YOLOV5：为了增加正样本数量，使用 pre-defined anchors 与 groudtruth 的宽高比进行正采样；
FCOS：处于groundtruth的中心区域的anchors作为正样本。

2 为什么提出OTA？

使用人工规则的分配方法，无法考虑尺寸、形状或边界遮挡的差异性。

虽然有一些改进工作，如ATSS动态分配方法，可以为每个目标动态的选择正样本。

但是上述方法都一个缺陷：没有全局性的考虑，比如当处理模糊标签时 (一个anchor可能对应多个目标)，对其分配任何一个标签都可能对网络学习产生负面影响。

OTA就是解决上述问题，以获得全局最优的分配策略。

3 OTA方法

3.1 OTA 思路

为了得到全局最优的分配策略，OTA方法提出将标签分配问题当作 Optimal Transport (OT) 问题。

具体来讲：

将每个gt当作可以提供一定数量labels的supplier，而每个anchor可以看作是需要唯一label 的 demander，如果某个anchor从 gt 那儿获得足够的 label，那么这个 anchor 就是此 gt 的一个正样本。

因为有很多anchor是负样本，所以还需引入另一个background供应商，专门为anchor提供 negative 标签，

问题目标是 supplier如何分配 label 给demander，可以让 cost 最低。其中 cost 的定义为：

对于每个anchor-gt pair，cost 为 pair-wise cls loss 和 pair-wise reg loss的加权和。
对于每个anchor-background pair，cost 为 pair-wise cls loss这一项。

3.2 Optimal Transport

假设第 i i i 个 supplier 拥有 s i s_i si 个货物，第 j j j 个 demander 需要 d j d_j dj 个货物。

货物从supplier i i i运到demander j j j 的成本为 c i j c_{ij} cij。

目标是找到最佳运输方案 π ∗ = π i , j ∣ i = 1 , 2 , . . . , m , j = 1 , 2 , . . . n \pi^*={\pi_{i,j}|i=1,2,...,m,j=1,2,...n} π∗=πi,j∣i=1,2,...,m,j=1,2,...n ，可以让总的运输 cost 最低：

min ⁡ π ∑ i = 1 m ∑ j = 1 n c i j π i j s . t . ∑ i = 1 m π i j = d j , ∑ j = 1 n π i j = s i , ∑ i = 1 m s i = ∑ j = 1 n d j π i j ≥ 0 , i = 1 , 2 , . . . , m , j = 1 , 2 , . . . , n {\underset {\pi}{\operatorname {min} }}\sum _{i=1}^m\sum _{j=1}^n c_{ij}\pi_{ij}\\ s.t. \sum_{i=1}^m\pi_{ij}=d_j, \sum_{j=1}^n\pi_{ij}=s_i, \sum_{i=1}^ms_{i}=\sum_{j=1}^nd_{j}\\ \pi_{ij} \geq 0, i=1,2,...,m,j=1,2,...,n πmini=1∑mj=1∑ncijπijs.t.i=1∑mπij=dj,j=1∑nπij=si,i=1∑msi=j=1∑ndjπij≥0,i=1,2,...,m,j=1,2,...,n

上述问题可以使用 Sinkhorn-Knopp算法来求解。

3.3 OT for Label Assignment

回到标签分配问题，对于一张图片，假设有 m m m 个 gt 目标和 n n n个 anchors：

每个gt 拥有 k k k 个positive labels，即 s i = k ; i = 1 , 2 , . . , m s_i=k; i=1,2,..,m si=k;i=1,2,..,m；
每个anchor 需要一个 label，即 d j = 1 ; j = 1 , 2 , . . . , n d_j=1; j=1,2,...,n dj=1;j=1,2,...,n

将一个positive label 从 g t i gt_i gti 运到 anchor a i a_i ai 的成本为 c i j f g c^{fg}_{ij} cijfg, 其可以表示为：
c i j f g = L c l s ( P j c l s ( θ ) , G i c l s ) + α L r e g ( P j b o x ( θ ) , G i b o x ) c_{ij}^{fg}=L_{cls}(P^{cls}_j(\theta),G^{cls}_i)+\alpha L_{reg}(P^{box}_j(\theta),G^{box}_i) cijfg=Lcls(Pjcls(θ),Gicls)+αLreg(Pjbox(θ),Gibox)
式中：

P j c l s P^{cls}_j Pjcls 和 P j b o x P^{box}_j Pjbox 分别表示对 anchor a j a_j aj 预测的 cls score 和 bbox；

G i c l s G^{cls}_i Gicls 和 G i b o x G^{box}_i Gibox 分别表示对 gt j j j 的 cls 和 bbox;

L c l s L_{cls} Lcls 和 L b o x L_{box} Lbox 分别表示cross entorpy loss 和 IoU Loss ;

α \alpha α 是 2 个loss的平衡系数

此外很多anchor是负样本，所以还有一个background supplier，将一个negative label 从background supplier 运到 anchor a j a_j aj 的成本为 c j b g c^{bg}_j cjbg, 其可以表示为：
c j b g = L c l s ( P j c l s ( θ ) , ϕ ) c_{j}^{bg}=L_{cls}(P^{cls}_j(\theta),\phi) cjbg=Lcls(Pjcls(θ),ϕ)
可以计算出negative lables的总数为： n − m × k n-m\times k n−m×k ，所以 s i s_i si 更新为：
s i = { k i ≤ m n − m × k o t h e r w i s e s_i=

{kn−m×ki≤motherwise{ki≤mn−m×kotherwise

si={kn−m×ki≤motherwise

4 OTA实施细节

为了便于理解，我们假定图片上有3个目标框，即3个groundtruth，再假定项目有2个检测类别，网络输出1000个预测框，其中只有少部分是正样本，绝大多数是负样本。

bboxes_preds_per_image 是候选检测框的信息，维度是 [1000，4]。

obj_preds 是目标分数，维度是 [1000，1]。

cls_preds 是类别分数，维度是 [1000，2]。

训练网络需要知道这1000个预测框的标签，而如何分配标签呢？使用OTA方法，分为4步，具体做法如下：

step1：生成cost矩阵

OTA方法分配标签是基于cost的，因为有3个目标框和1000个预测框，所以需要生成 3 × 1000 3\times 1000 3×1000 的 cost matrix，对于目标检测任务，cost 组成为位置损失和类别损失，计算方法如下：

(1) 位置损失

计算3个目标框，和1000个候选框，得到每个框相互之间的 iou pair_wise_ious。

再通过-torch.log计算得到位置损失，即pair_wise_iou_loss，向量维度为 [3,1000]。

pair_wise_ious=bboxes_iou(gt_bboxes_per_image,bboxes_perds_per_image,False)
pair_wise_ious_loss=-torch.log(pair_wise_ious+1e-8)

(2) 类别损失

通过第一行代码，将类别的条件概率和目标的先验概率做乘积，得到目标的类别分数。

再通过第二行代码，F.binary_cross_entroy 的处理，得到3个目标框和1000个候选框的综合loss值，得到类别损失，即pair_wise_cls_loss，向量维度为 [3，1000]。

cls_preds=(cls_preds_.float().unsqueeze(0).repeat(num_gt,1,1).sigmoid_()
*obj_preds_.unsqueeze(0).repeat(num_gt,1,1).sigmoid_())

pair_wise_cls_losss=F.binary_cross_entropy(cls_pres_.sqrt_(),gt_cls_per_image,reduction='none').sum(-1)

有了reg_loss和 cls_loss，将两个损失函数加权相加，就可以得到cost成本函数了。

cost 计算公式如下：
c i j = L i j c l s + λ L i j r e g c_{ij}=L^{cls}_{ij}+\lambda L^{reg}_{ij} cij=Lijcls+λLijreg
加权系数 λ = 3 \lambda=3 λ=3，计算代码如下：

cost=pair_wise_cls_loss
      +3.0*pair_wise_ious_loss
      +100000.0*(~is_in_boxes_and_center)

step2：dynamic_k_estimation

每个 gt 提供多少正样本，可以理解为“这个 gt 需要多少个正样本才能让网络更好的训练收敛”。

直觉上，每个gt 的大小、尺度和遮挡条件不同，所以其提供的positive albel数量也应该是不同的，如何确定每个gt的正样本数 k k k 值呢，论文提供了一个简单的方案，该方法称之为：Dynamic k Estimation，具体做法如下：

从前面的pair_wise_ious中，给每个目标框，挑选10个iou最大的候选框。因为前面假定有3个目标，因此这里topk_ious的维度为[3，10]。

topk_ious 计算代码如下：

ious_in_boxes_matrix = pair_wise_ious
n_candidate_k = min(10, ious_in_boxes_matrix.size(1))
topk_ious, _ = torch.topk(ious_in_boxes_matrix, n_candidate_k, dim=1)

下面通过topk_ious的信息，动态选择候选框。**dynamic_k_matching 代码如下:

dynamic_ks = torch.clamp(topk_ious.sum(1).int(), min=1)

针对每个目标框，计算所有anchor的 iou 值之和，再经过torch.clamp函数，得到最终右面的dynamic_ks值，给目标框1和3各分配3个候选框，给目标框2分配4个候选框。

step3：得到matching_matrix

for gt_idx in range(num_gt):
    _, pos_idx = torch.topk(cost[gt_idx], k=dynamic_ks[gt_idx], largest=False)
    matching_matrix[gt_idx][pos_idx] = 1

针对每个目标框挑选相应的 cost值最低的一些候选框。比如右面的matching_matrix中，cost值最低的一些位置，数值为1，其余位置都为0。

因为目标框1和3，dynamic_ks值都为3，因此matching_matrix的第一行和第三行，有3个1。而目标框2，dynamic_ks值为4，因此matching_matrix的第二行，有4个1。

step4：过滤共用的候选框

anchor_matching_gt = matching_matrix.sum(0)
if (anchor_matching_gt > 1).sum() > 0:
    _, cost_argmin = torch.min(cost[:, anchor_matching_gt > 1], dim=0)
    matching_matrix[:, anchor_matching_gt > 1] *= 0
    matching_matrix[cost_argmin, anchor_matching_gt > 1] = 1

matching_matrix种第5列有两个1，这说明第5列所对应的候选框，被目标检测框1和2都进行关联。

因此对这两个位置，还要使用cost值进行对比，选择较小的值，再进一步筛选。假设第5列两个位置的值分别为0.4和0.3。

经过第三行代码，可以找到最小的值是0.3，即cost_min为0.3，所对应的行数，cost_argmin为2。

经过第四行代码，将matching_matrix第5列都置0。

再利用第五行代码，将matching_matrix第2行，第5列的位置变为1。

最终我们可以得到3个目标框，最合适的一些候选框，即matching_matrix中，所有1所对应的位置。

5 OTA效果性能

（1）整体性能

OTA 方法可以使用于anchor-based和anchor-free 检测器中，其中anchor-based的模型使用 RetinaNet，anchor-free模型使用 FCOS，当没有额外分支时，FCOS的AP值为38.3，使用了OTA之后FCOS 的AP值达到39.2，提升了0.9个百分点，如果加上 IoU分支以及 dynamic k 策略，FCOS的AP值最终达到 40.7。

（2）r 的影响

OTA方法通常用于精筛选正样本，在精筛选正样本前，可以增加一步粗筛选，有2种方式：

筛选中心点落在groundtruth bbox范围内的anchor作为正样本；
筛选中心点落在以groundtruth bbox中心点为中心，r为半径的区域内的anchor作为正样本；

在粗筛选的结果基础上，再使用OTA方法，可以减少运算量和提高精度。

将 r 设置成3, 5, 7后，得到粗筛选候选框数量分别为45，125 和 245。将OTA和ATSS、PAA方法作比较，得到2个结论：

模糊样本ambiguous anchors（一个anchor可能对应多个gt）数量 N a m b N_{amb} Namb 越多，相应的AP会下降，说明模糊样本会对网络训练产生负面影响；
分配到模糊样本的数量：ATSS > PAA > OTA；
对 r 的敏感性：ATSS > PAA > OTA

（3）k 的影响

在使用 Sinkhorn-Knopp 算法前，需要知道每个gt需要提供多少positive label，posivtive label的数量就是k，如下比较了将 k 设置成固定值和动态值的情形，论文提出的dynamic k 方法可有效提高 AP值。

6 总结

OTA 论文的主要贡献包括以下几点：

提出解决目标检测中的标签分配问题的新思路：当作OT (Optimal Transport problem) 问题来处理；
提出计算每个gt需要提供多少positive label的方法，该方法简单有效；
分析了模糊样本的影响，ambiguous anchors 会对网络训练产生负面影响，OTA方法可以有效的减少模糊样本的数量。

7 参考

深入浅出Yolo系列之Yolox核心基础完整讲解: https://zhuanlan.zhihu.com/p/397993315

from：https://blog.csdn.net/weixin_46142822/article/details/124074168

标签：gt,OTA,Object,matching,Detection,cost,anchor,cls
来源： https://www.cnblogs.com/chentiao/p/16435078.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9