Exploring Rare Pose in Human Pose Estimation

2021-05-19 09:58:42 阅读：220 来源： 互联网

标签：姿势 Exploring 稀有方法 Pose 样本聚类 Estimation 数据

Exploring Rare Pose in Human Pose Estimation
在人体姿势估计中探索少有姿势
**【摘要】**我们解决了人类姿势估计问题中不同姿势之间的数据不平衡问题。我们探索了罕见的姿势，这些姿势在姿势数据集中只占一小部分。为了无需额外学习即可识别稀有姿态，将简单的K均值聚类算法应用于给定数据集。在MPII和COCO数据集上的实验结果表明，离最近的离群值较远聚类中心可以定义为稀有姿势，并且精度随着数据点之间的距离而降低集群中心增加。为了提高在稀有姿势下的表现，我们提出了三种解决数据短缺问题的方法，包括添加稀有的姿态重复项，添加合成的罕见姿势数据和基于距聚类的距离的加权损失。在建议的方法中，最高在稀有姿态数据下，增加的分数为13.5 mAP。
一.介绍
由于其在诸如人机交互和监视系统等领域的实用性，已经积极研究了2D姿态估计，以有效地定位典型的人体特征，例如图像中的关节。人体姿势估计最初集中于单个人的姿势。近年来，关于人体姿势估计任务的研究已经扩展到处理多人姿势，需要姿势估计器来定位关键点。在2D图像中密集可见的多个人的比例。
迄今为止，二维姿态估计文献中的许多研究主要提出了改进的网络结构或有效利用特征尺度来增强姿态估计性能的方法。近年来，虽然姿势估计的总体性能逐渐提高，但不同部位之间姿势准确性的提高之间存在相当大的差异，例如，在腕部关键点的情况下，其可能的运动区域相对较大由于肘部和肩膀的两个阶段的依赖性较大，而头部与肩膀的两侧之间的相关性强，因此头部的相关性要小得多。为了改善零件之间的精度不平衡，Zhu等人。应用了在线难点挖掘损失[1]。 RefineNet [2]还提出了一种方法，通过在估计主网络上的姿势后仅学习难关键点来减少零件之间的精度差异。
在本文中，我们将零件不平衡的问题扩展为姿势不平衡的更困难的问题，并提供了解决该问题的方法。大多数可用的姿势数据集由在运动中自然的基于日常情况下（例如步行和参加运动）收集的数据样本组成。黄等。 [3]分析了COCO [4]数据集，并报告说数据集中的85％由站立姿势组成，其余为坐姿或躺姿。
他们的工作认为，数据池中的严重失衡使姿势检测难以通用化。然而，他们测量姿势失衡的标准主要取决于姿势是否直立。由于即使站立姿势中的各种因素（例如（自）闭塞）也会影响整体姿势估计性能，因此应研究一种更具演绎性的方法来定量测量姿势唯一性，以更好地分析姿势数据中的不平衡度。
在本文中，我们提出了一种首次定义稀有姿势的方法，因此提出了其他技术，这些技术可提高针对稀有姿势的估计性能。
首先，我们认为需要特殊姿势样本的适当定义才能解决该问题，以增强姿势估计器的鲁棒性。为此，我们首先将一个罕见的姿势定义为“在数据族群中占少数的姿势”。这种稀有姿势的例子包括蹲下姿势，自遮挡姿势，水平扩展姿势（例如游泳姿势）等等。在这种情况下，少数数据集是指整个数据分布中的异常值。
离群值通常意味着数据样本与其他样本明显不同，其含义也适用于稀有姿势。但是，与离群值不同的是，不可将稀有姿势从集合中丢弃。在提出用于离群值检测的各种方法中，我们使用K均值聚类来检测稀有姿势，这是因为它的计算优势是一种无需训练的聚类方法。
在这项工作中，我们凭经验表明，将离群值定义为远离聚类中心的稀有姿态是合适的，这与中心附近密集的其他数据样本不同。将所有样本聚类后，样本的聚类距离（CD）将姿势样本与其分类簇的中心点之间的距离与预定义的距离阈值（DT）值进行比较，以确定它是否为稀有样本。
图1（a）展示了MPII [5]姿态数据样本及其由K均值聚类（K = 7）得到的聚类的分布。实心红色箭头表示DT，虚线箭头表示姿态样本的CD。如果样本的CD大于DT，则该姿势被归类为稀有数据。图1（b）显示了通过我们提出的方法选择的稀有和非稀有姿势样本的图像。分类的姿势样本显示稀有姿势和非稀有姿势之间的复杂性明显不同。
在这里插入图片描述

图1.通过MPII姿态数据集中的聚类进行罕见姿态识别的图示。（a）中心姿势通常代表典型姿势，例如站立垂直或向左侧或右侧倾斜。红色虚线箭头表示星团的中心姿势（黄色星星）和姿势样本（小圆圈）之间的距离。如果此群集距离（CD）超过距离阈值（DT）（大圆圈），则将姿势分类为稀有姿势（实心圆）。其他小圆圈（空心圆圈）被归类为通常的姿势（非罕见姿势）。（b）显示了以DT值为1.2识别的稀有和非稀有姿势的示例。
由于不仅难于检测出罕见的姿势，而且仅存在少量的相似数据样本，因此我们提出以下三种技术来增强姿势估计性能：
1.罕见姿势数据样本的重复。除了给定的训练数据样本外，我们还在数据集中再次重复稀有姿势数据样本。
2.添加合成的稀有姿态数据样本。我们已经创建了带有稀有姿势样本注释的合成样本并将其添加到训练数据集中。
3.基于稀有度的权重。在对姿势进行聚类之后，将姿势及其相应聚类的中心点之间的距离用作权重，以学习参数更新的数量。
我们已经对我们提出的技术进行了对比实验，以评估稀有姿势估计的性能改进。为了进一步证明我们提出的方法的有效性，我们还提供了定量结果和COCO关键点[4]的平均平均精度（mAP）得分，以及MPII [5]数据集上常用的正确关键点（PCKh）的百分比基准2D多人姿势估计。作为基线，我们使用了简单的[6]和CPN [2]模型，它们是多人姿势估计问题中的流行网络。从在实验中，我们观察到稀有姿势样本的准确性得分有了较大的提高。
类不平衡是指分类问题中类之间的数据数量差异。占用大量数据的类定义为主要类，而样本数量较少的类称为次要类。提供过采样，欠采样，重量减轻和其他方法来解决不平衡问题[7]-[11]。这些方法将重点放在次要类上，这可能会降低主要类的性能。因此，有必要保持主要类的表现。在本文中，稀有姿势对应于未成年人我们的目的是在保持整体性能的同时
提高罕见姿势的表现。
本文的其余部分安排如下。我们将在第三节中描述我们对稀有姿势的定义，第四节提出一些方法来增强针对稀有样品的性能。最后，我们在第五节中演示了提出的用于定义姿势稀有性和性能改善的标准和方法的效率。
二、相关工作
A.数据不平衡
数据不平衡是指类之间的样本数量不平衡的情况。如果数据高度不平衡，则主要类别的样本将主导学习。这通常会导致模型偏向主要类别[9]，[11]。
许多研究人员提出了各种解决方法：过采样，欠采样，重新加权损失以及使用合成少数过采样技术[7]，[8]，[10]，[12] – [14] ]。过度采样通过从原始分布中采样，将次要类的频率级别提高到主要类的相同级别，而欠采样则降低了主要类的频率。两种方法都可以简单地解决类不平衡问题。但是，通常都知道过采样和欠采样分别遭受过度拟合和性能不佳的问题。
为了克服过度拟合的问题，提出了合成少数采样技术。实例是通过生成器综合生成的，以避免重复滥用次要类中的样本。重加权方法修改了应用于每个类的权重，因此增加了对次要l类的重视程度。 [15] – [17]人体姿势数据集通常具有各种类型的姿势。不幸的是，非稀有姿势（如站立或坐着）在数据集中占很大一部分，而很少见的姿势（如蹲下）所占比例较小。
因此，我们提出了一种可以用简单标准对姿势类型进行分类的方法。在使用提议的方法对姿势进行分类之后，我们将次要姿势定义为“稀有姿势”。为了提高这些稀有姿势的性能，我们提出了三种方法，这些方法均受到上述方法的启发，用于解决数据不平衡问题。第四节中有更多详细信息。
B.二维多人人体姿态估计
2D多人姿势估计任务的目的是估计图像中多个人的姿势。相关研究大致可分为两种方式：自上而下的方法和自下而上的方法。两种方法之间的最大区别在于，是否在检测到每个人之后执行姿势估计。自上而下的方法首先从场景中搜索人，然后在检测到的边界框中估计一个姿势。另一方面，自下而上的方法直接从输入图像中检测多个人的姿势。由于这些差异，众所周知，自上而上的方法比自下而上的方法具有更高的精度，而自下而上的方法的单阶段性能优于计算效率。
作为自下而上方法的代表性研究，开放姿势[18]新提出了表示身体各部位之间联系的部位亲和力场（PAF）。该方法使用亲和力字段将通过热图检测到的多个关节链接到多人设置中相应人的姿势。提出的Openpose网络使用VGG网络结构将输入图像编码为特征，然后以并行方式将关节投影到热图和PAF。然后根据地图计算零件关联，以最终估算多人姿势。
自上而下的方法根据通过执行检测方法检测到的对象来估计姿势。许多研究人员使用了多种检测方法，其中Mask-RCNN [19]是最常用的一种。以前的大多数工作都在利用多尺度特征来估计不同情况和大小的姿势方面进行了研究。 Simple [6]提出了一种通过反卷积层增加输出热图比例尺的方法。在ResNet [20]结构上，这项工作通过新添加的反卷积层增加了编码特征的规模。尽管它是一个具有相对简单扩展的网络，但是它已经实现了相当好的准确性。
最近的许多研究提出了能够同时利用各种规模的特征的网络结构。例如，提出了一种利用多尺度特征来维持高分辨率特征尺度的网络[21]。高分辨率和低分辨率的特征由具有4个站的独立推理路径提供，以沿这些路径交换信息。在每个工作站的每个最后一层，将要素串联起来，以馈入以下单独的路径。对于串联，将1×1上采样应用于低分辨率特征，将步长为2的3×3卷积层应用于下采样高分辨率特征。
基于分析，局部和全局特征分别在本地化和分类问题中很重要，Cai等人。文献[22]提出了一种寻求整合局部和全局特征的方法，因为姿势估计问题需要估计不同身体部位的关节位置。该方法在其建议的网络结构（卷积层具有单个瓶颈的情况下递归操作），有效提取局部和全局特征的网络结构中，在COCO 2017年关键点挑战中获得了最先进的性能。
C.稀缺姿态估计
定位或检测准确率针对不同的身体部位而有所不同，每个固有部位固有地具有不同的运动自由度和程度。几项研究已标记了相对较难定位的关键点，例如踝关节和腕关节。与对象挖掘方法OHEM（在线硬核示例挖掘）类似，它试图解决以下问题：在目标检测任务[23]中，提出了一种在线硬性关键点挖掘（OHKM）损失来解决姿势估计问题关键点之间典型的精度不平衡问题[2]。在工作中，细化网络具有全局网络的功能，并且两个网络都经过L2损失功能训练。向精炼网络施加OHKM损失，仅对那些检测不准确的零件进行训练。提出了另一项工作[1]，该工作将相对较难估计的关节（例如部分被遮挡的身体部位）分配更多的权重，并使用了生成对抗网络[24]（GAN）。该工作收集从发电机计算出的每个零件的损耗，并对具有较大损耗值的接头施加更大的权重。
如前所述，最近的论文集中在通过使用特征量表和使用局部信息对姿势进行细化来改进姿势估计方法。尽管此类方法在一定程度上改善了整体性能，但仍需要更直接的方法来处理姿势涵盖了很多复杂性。在本文中，我们重新定义了稀有姿势的概念，并提出了改善稀有姿势估计任务性能的方法。
三、稀缺部位识别
按照惯例，很少有的姿势样本代表具有很多不可见部分的姿势或如图1（b）所示的不寻常姿势。由于它们在数据集中的稀有性，并且没有明确的定义来将其与通常的样本区分开来，因此许多方法以前都难以估算此类样本。尽管很少见，但是在某些涉及大量姿势变形的区域（例如体操和极限运动）中，这些罕见姿势的姿势估计对于人眼至关重要。
为了提高罕见姿势的性能，我们首先需要采取明确措施来识别罕见姿势。由于具有姿势P的2D图像样本由J个关节的（x，y）坐标值组成，即p = {{（xj，yj）} Jj = 1，可以将其视为2J维连续实随机向量，使用坐标设置罕见姿势的清晰定义非常复杂。即使我们设置了启发式规则，也需要花费时间和成本，因为人们必须对其进行标记。为了解决这个问题，我们提出了一种不需要额外学习的新的稀有姿态识别方法。
稀有姿势占数据集中的一小部分，并且与大多数数据有相对较大的差异，表现为离群值。为了获得计算上的优势，我们旨在使用一种简单的聚类方法来检测离群值，而无需对异常检测进行任何其他学习。在本文中，我们进行K-均值聚类方法[25]，这是一种流行的无监督聚类方法，该方法搜索K个聚类中心和数据样本之间的最小距离的聚类。该方法允许将相似的姿势尽可能密集地分组，并标记与聚类中心相对较远的稀有姿势。
没有颜色和纹理信息的身体关节的2D位置信息被认为是对姿势进行分类的原因，因为颜色和纹理信息往往取决于各种因素，例如衣服和肤色，因此跨越了一个非常宽的搜索空间。因此，只能通过2D坐标p = {（xj，yj）} Jj = 1来定义聚类
来自图像空间的部分，主要代表每个姿势样本的唯一性。当检测到每个零件的位置信息时，将对象定位在某个边界框的中心具有与图1（a）中所示相似的比例。
首先，基于预定聚类数K对训练数据进行分类。这样做时，姿态pi与相应群集mc的中心之间的距离按以下方式测量：表示为群集距离dic：
在这里插入图片描述
然后，使用聚类距离来确定是否姿势pi是否为罕见姿势。图5（b）和（c）显示了簇距离的直方图。两张图均确认样本数从一定值突然减少。我们认为与稀有姿态的距离阈值（DT）τ对应的点数突然下降。我们已经进行了实验，以测量此阈值设置的准确性，第VA节提供了更多详细信息。最后，如下将姿势piis分为稀有姿势R或通常姿势U。

在这里插入图片描述

四、增强稀有姿势的性能估算
从经验上我们发现，罕见姿势的性能低的原因不仅在于它们难以估计，而且与相对简单的样本相比，数据集中仅存在少量此类样本姿势。表1显示了基于聚类中心及其相应姿势之间的各种距离阈值的Simple [6]的准确性**。从结果可以看出，稀有姿态数据的准确性和数量随阈值的增加而降低。**有了这样的理解，我们提出以下方法来通过关注稀有数据来提高针对稀有姿势的性能：将稀有姿势样本和带有稀有姿势标签的合成样本的重复项添加到训练集中，并基于目标函数反映稀有性距群集中心的距离。
在这里插入图片描述
A.重复制作稀有样本（DRP）
改善总体性能的有效方法之一是使用平衡更好的数据集进行训练。为了达到相似的效果并提供与大多数训练数据相同的域中的数据样本，而不是收集其他数据，我们添加了稀有姿势样本的重复项。首先在预处理过程中从训练数据中标记稀有样本，然后在训练集中将它们重复一次。
在这里插入图片描述图2合成稀有姿态数据的整体说明生成过程。
基本事实构成，Pgt = {p1，p2，… ，pN}，用于学习。一旦我们从地面真实姿态R⊂Pgt中检测到稀有姿态R = {pi | dic>τ}，我们便会复制R，并将其添加到原始Pgt中以构成Pdrp。然后，将Pdrp馈入网络进行学习。
此方法是增加来自同一域的稀缺样本的简单但有效的方法。模型中存在过度拟合重复数据样本的风险，但是在稀有姿态样本的情况下，由于其分布比其他样本小，因此总体性能不会受到严重影响。
B.合成稀有姿势数据的添加（ASRP）
由于数据收集昂贵并且收集稀有姿态数据特别困难，因此，如果必须考虑更多种颜色/纹理，则可以合理地合成稀有样本并附带注释背景真相[27]，[28]。
在这里插入图片描述
图3.通过图2所示的方法生成的合成MPII稀有姿态数据的示例。第一行中的图像显示了根据我们的方法定义为稀有姿势的MPII数据样本。第二行中的图像是合成样本。第三行和第四行中的图像分别显示了合成生成的样本，这些样本的样式分别从有背景到无背景都从合成转换为真实。
对于几代合成的稀有姿势数据，我们使用了SMPL人体模型[26]。 SMPL是一种网格变形模型，由姿态θ和形状β参数定义，用于控制模型的3D网格输出。然后，可以将由SMPL构建的3D人体网格模型投影到具有由比例尺s，平移t和旋转R组成的相机参数的2D图像，以将其重新创建为带有2D关节位置注释的姿态数据样本。
但是，由于稀有姿态数据样本的注释的每个关节均带有图像坐标（x，y），因此我们需要将2D坐标映射到相应的姿态和相机参数，以便创建和重新投影SMPL网格模型，以便将所得合成样本的注释与给定2D稀有姿势样本的注释对齐。
图2说明了合成稀有姿态数据样本的总体生成过程。为了确保人类姿势的真实性，SMPL为从真实姿势收集的每个网格提供了一组已知的姿势参数和颜色/纹理信息，我们将其用于生成随机的合成样本。作为初始阶段，由于我们需要学习将2D关节坐标映射到相应的SMPL参数θ，β，R，t，s的函数f，因此我们收集SMPL模型的输入和输出以训练f（请参见图2 （一种））。使用经过训练的f（具有图2（b）中的设置），我们能够在带有2D注释的3D人体网格模型找到重新投影到2D图像空间时正确的参数，如图2（c）所示。然后，随机图像填充背景，以创建合成的稀有姿态样本，如图2（d）所示。人体纹理池提供每个网格的颜色值，这些颜色表示衣服或皮肤的颜色和皱纹。背景是从VOC2012数据集的随机选择样本中随机裁剪的补丁[29]。合成生成的姿态数据的示例如图3所示。生成合成的合成姿态样本后S = {ps1，ps2，… . ，psm}生成，并添加样本根据给定的地面真理训练集构成Pgt用于训练的姿势为Pall = Pgt∪S。
为了生成更逼真的合成样本，我们有预训练了将合成样式转换为样式的生成器真实的。我们已经使用了U-GAT-IT [30]，它是一种无监督的图像到图像翻译生成模型，因为它具有出色的从卡通到实物和副图像的样式转换性能。反之亦然。
模型f的结构为Simple [6]中具有ResNet50结构的PoseResnet，它采用256×256大小的输入。选择该网络的原因是其报告的和经验的效果。我们已经选择了13个与SMPL，MPII和COCO数据集普遍匹配的关键点，因此，在用SMPL的关键点训练网络之后，可以使用MPII和COCO的稀有姿态注释来生成相应的合成样本（见图3）。网络中包含基于2D坐标输入创建的13个热图通道。
C.基于集群距离的加权损失（WLCD）
在目标检测问题中，采用软采样方法解决数据不平衡问题[31]-[34]。贡献度被分配为0到1之间的值解决每个数据的数据不平衡问题。类似地，在第i个姿势分配了聚类类c∈{1，···，K}之后通过K均值聚类，可以测量聚类距离dic，即姿势与其对应的聚类中心之间的距离。在计算损失时，将群集距离值用作权重，对于较少的姿势，它会产生较大的梯度更新。
基于我们的聚类距离的加权目标提出的方法如下：
在这里插入图片描述
其中权重为w（dic）的损失函数L乘以热图预测ˆhij之间的均方误差（MSE）
第i个姿势数据中第j个关节的地面真相hij。这里，N和J是训练样本的数量和数量
的关节。权重确定如下：

聚类距离是指示姿势与通常姿势相距多远的值，换句话说，姿势很少见的值。
即使在被分类为罕见的姿势中，也可以通过不同样品的重量也不同。
D.姿势划分和征服策略估计（DACP）
我们已经提出了DRP，ASRP和WLCD，以改善使用稀有姿势的姿势估计模型的性能。设计了这三种方法可以有效地学习难得的姿势。所提出的方法通常保持通常姿势的性能，但是一些实验也显示出牺牲稀有姿势的增强性能的通常姿势的性能的结果，与稀有姿势的性能增益相比，这并不是显着的下降。
因此，我们对网络结构采用了分而治之的策略。分治法是一种将问题递归分解为两个或更多子问题的算法。为了同时解决稀有姿势和通常姿势的性能之间的折衷，我们将姿势估计架构分为两个网络，每个网络都更侧重于稀有姿势或其他。
该算法的工作原理如下。
在这里插入图片描述
算法1并行使用两个网络：Netr通过提议的方法（DRP + ASRP + WLCD）学习，以提高稀有姿态的性能，而Netb是用于将性能保持在常规姿态的基准网络。
我们使用每个网络的输出热图（hb，hr）计算置信度得分。置信度得分是从所有部分提取的热图最大值的平均值。在Netb和Netr之间，选择具有较高置信度得分的人作为最终预测。
五、实验
在本文前面，我们新定义了稀有姿势和提出了三种提高绩效的战略方法
在罕见的姿势上。 MPII和COCO关键点数据集是在本节中用于对所建议方法的性能进行评估。
MPII和COCO关键点是训练/验证2D多人姿势估计模型的最常用基准。
数据集包括从日常姿势到具有挑战性的各种姿势。
-MPII数据集[5]具有25k图像和40k姿势标注了16个关节零件的2D位置的人，以及它们是根据410种动作类别收集的的人。我们已经在MPII数据集上评估了我们的方法包含正确关键点的百分比[5]（PCKh），其中测量预测的关节零件的定位精度。在测量地面与地面之间的距离后，预测的关节，PCKh会计算出在选定的距离阈值内。
-COCO 2017关键点数据集[4]包含超过20万张图像，构成25万个人的姿势，并用17个关节部分进行注释。我们的方法通过mAP评分进行评估[4]。对象关键点相似度[4]（OKS）用于姿势之间的相似度度量。
在这里插入图片描述
图4.使用Simple方法对簇距离dic超过每个阈值τ（x轴）的稀有姿势样本的姿势估计结果[6]基线模型。图右上方的数字5到20表示群集K的数量。（a）和（a）中的条形图（b）表示相应的稀有样本在姿势样本总数（％数据）中所占的百分比，而线代表准确性分数。我们选择了超参数，以使稀有姿势占2-3％，其范围由灰色指示区域。在（c）和（d）中，验证数据的条表示相应的稀有样本（#data）的数量，而线是准确度。
-利兹运动扩展数据集（LSP）[35]是单人姿势估计数据集。它包含动态
体育游戏图像，例如棒球，体操，网球和很快。在本文中，我们对测试方法进行了评估仅限图片，编号为1000张图片。
MPII和COCO数据集用于评估所提出方法的性能，并且我们还在以下方面测试了我们的模型LSP验证集可检查所提出方法的效果在不同的域中。
对于聚类的结果，位置坐标（x，y）的姿势归一化并用作输入特征值
用于聚类，因为位置信息可以分类数据，而不管图像的纹理如何。所以，坐标
MPII的16个部分中的32个被用作32维特征向量而COCO的17个部分中的那些被用作34维聚类的特征向量。
为了证明我们提出的方法的有效性为了提高稀有姿态样品的性能，我们有
将简单[6]和CPN [2]设置为我们的基准模型。两个都方法是自上而下的方法，其基本结构两种方法都广泛用于人体姿势估计中。我们保留了网络结构，超参数和报告的基准培训标准，但由于我们采用了不同的批次大小来实施给定的计算资源。我们使用地面真相边界框上的人标签，以排除差异的可能性使用外部物体检测器导致的性能下降。所有真实的热图仅通过以下方式生成可见的部分。在Simple [6]的情况下，我们采用ResNet-50网络，COCO的输入图像分辨率为（256,192）
MPII为（256,256）。我们使用诸如重新缩放（±30％），旋转（±40度）和翻转。的情况下CPN [2]，我们采用（256,192）的输入图像分辨率适用于COCO和MPII。同样，数据扩充包括重新缩放（0.75〜1.35），旋转（±45度）和翻转。在
MPII和COCO，硬样品（例如自闭式姿势）可以经常观察到。训练ASRP中的生成器，这些样本参加了培训，因此，该类属能够产生具有挑战性的样本。
A.稀有姿势识别的结果
由于K-means聚类是一种收集相似信息的算法通过使用基于K个中心的要素之间的差异来获得数据其聚类分类结果因K数。
图4显示了使用不同的实验结果用于MPII和COCO的具有不同数量K的K均值聚类。图4（a）和（b）显示了实验每个数据集的训练集上的结果，以及（c）和
（d）显示每个验证数据的实验结果在简单[6]基线模型上。进行实验通过将每个集群的数量从5更改为20数据集。 x轴代表各种距离阈值τ。y轴表示构成比每个阈值大的姿势。我们还包括了数字图中相应样本的数量。在两个数据集中，所有
聚类显示出作为距离阈值的准确性下降增加。我们选择了相对大量的集群以避免聚类的风险，而只关注少数几个姿势。
因此，我们选择的聚类数要直观地大，对于固定阈值τ，聚类得分也会逐渐降低，作为聚类数增加。实验上认为约应将整个数据集的2-4％设置为稀有姿势，即在图4（a）和（b）中以灰色区域表示。在COCO中在这种情况下，群集的灰色部分的条形图为τ= 1.4对于群集11为20 /τ= 1.5，对于群集7为15 /τ= 1.6 /群集5的τ= 1.7。群集15和20的mAP较低，与群集5、7和11的数据数量相同。这意味着当这些稀有的姿势不能很好地归类为离群值时，由于特征，簇数太小具有许多遮挡（包括自我遮挡）的COCO数据。因此，我们选择了τ= 1.5的15个聚类对于COCO数据集。如果是MPII，则选择集群基于相同的标准。我们选择了7个集群，因为与COCO相比，有很多可见的部分。这相应的阈值设置为τ= 1.0。最后，价值观MPII和COCO的K分别确定为7和
15通过实验。
在这里插入图片描述

图5.（a）显示了在整个数据中具有一定数量的可见部分的样本数量的比率。 x轴代表可见部分的数量，y轴代表样品的百分比。对于MPII数据，如果完整则要注释的16个部分可见，来自大多数数据样本（67％）的所有关节都是可见的。完全可见的COCO数据样本由17个零件位置定义，并且没有太多完全可见的姿态样本。
子图（b）和（c）分别代表了从聚类中心到每个数据的距离值的直方图（对于MPII和COCO）。在MPII图中，大多数数据都位于簇距离内，并以较窄的图宽度分布，而COCO图往往具有较大的簇距离值和方差。
表1显示了群集的各种编号的结果。在表格中，“＃data”行代表距离大于阈值τ的样本数量。第二个例外是带有“ <τ”的列，该列表示距离小于阈值旧阈值τ的非稀有样本的数量。在这种情况下，每个姿势样本都意味着地面真实边界框内的一个姿势，并且我们从该实验中排除了具有零可见注释的COCO样本。
图5（b）和（c）是分别从MPII和COCO从聚类中心到每个数据的距离值的直方图。在MPII的情况下，大多数数据位于群集距离内，并以较窄的图形宽度分布，并且值倾向于在一定距离上产生偏差。另一方面，与MPII相比，COCO的直方图在簇距离上倾向于具有更大的方差。这是因为COCO数据要比MPII的数据要大得多，而且姿势要多样化得多，而且在MPII中，可以看到所有身体部位的情况都比COCO多。图5（a）示出了根据可见部分的数量的数据数量。橙色是MPII的结果，蓝色是COCO的结果。就MPII而言，在总共注释的16个关节位置中，大多数数据样本被注释为可见的，平均有12个或更多可见部分。另一方面，对于COCO，在17种可用产品中，平均可见到6个以下的部件部分。
我们在表1中提供了结果，以显示根据某些阈值标记稀有姿势的趋势。
每个表都按τ表示训练数据的数量和准确性。同样，图1（b）显示了稀有姿势和非稀有姿势的示例。可以确认被检测为非稀有姿势的图像与被检测为罕见姿势的部分相比，该对象的正面视图较少的部分具有较少的主动运动。从这些结果可以确认，阈值越高，定义的姿势越特殊，准确度越低。通过这些实验，我们已经确定了MPII和COCO的合理阈值（τ）1.0和1.5，具有合理数量的分类为稀有姿势的数据具有较低的mAP。 “简单” [6]基线模型用于选择聚类数和稀有姿势阈值。在另一个基准模型“ CPN” [2]中，聚类数和阈值τ设置为与“简单”相同。
表2. MPII验证每个距离阈值（τ）的准确性
在这里插入图片描述
B.建议方法的结果
所提出的方法分为带有和不带有附加数据的方法。添加数据的方法（罕见姿势的重复和合成罕见姿势的添加）分别标记为DRP和ASRP。对于DRP情况，MPII具有644个姿势，而COCO具有3317个姿势在训练集中重复进行。虽然ASRP是一种添加新生成的合成图像的方法，但为了与其他提议方法进行公平比较，ASRP方法可以创建并添加与DRP添加的样本数量相同的稀有姿势。在ASRP的过程中，我们可以从SMPL模型获得重新校准的姿势注释。根据给定的注释，我们可以计算边界框的坐标，依此类推。ASRPT代表了ASRP的方法，其中的样品已从合成样本转换为实际样本。最后，不更改训练集（基于聚类距离的加权损失）的方法称为WLCD。
表3. COCO 2017验证中每个距离阈值（τ）的准确性。在这里插入图片描述
表2和表3显示了基线模型与我们在MPII和COCO数据集上提出的方法的比较结果。表中的值表示准确性，括号中的值表示与基准模型的性能之间的差异。在表2中的MPII结果中，总体结果大部分增加，最高达到0.79。 τ= 1.0分配给灰色背景中的稀有姿势，所有提出的方法均显示出性能的提高。特别是，在簇距相对较高的τ= 1.2处，最大增量为6.09。我们还显示出τ<0.5的增加趋势，该趋势仅覆盖通常的姿势，这表明所提出的方法不会因学习通常的姿势而受到阻碍。在估计稀有姿势方面，ASRPT的性能高于ASRP，这表明将样式（真实）与训练数据进行匹配有助于提高性能。在未来的研究中尝试改善传输性能时，可以进一步改善稀有姿势性能。不幸的是，如表2（b）所示，在τ= 1.2时，添加合成稀有姿态数据的方法显示出较差的性能。但是，在COCO数据中，当添加合成纤维时，表3（b）τ= 1.5和1.8中的性能得到了改善，即使当基线网络为Simple [6]模型时，性能也得到了提高。可以预料，添加合成数据不是问题，并且所提出的方法必须适合于网络模型和数据。
表3显示了使用COCO 2017验证集的实验结果。与总的mAP相比，除了ASRP（性能有所下降）以外，所提出的方法比基线方法增加了约0.1-0.3。τ= 1.5分配给灰色背景中的稀有姿势。在罕见的姿势下，除了两种方法外，所有值都增加了。此外，所有τ= 1.6以上的情况都倾向于总体上提高所提出方法的性能。
特别是，最高的精度改进是13.5。不幸的是，τ<1.1的几种方法往往会降低性能，但相差0.1，这并不大。
DRP和ASRP是数据扩充的方法，并且WLCD是一种减轻损失的方法。同时使用增加数据和减轻权重的方法来改善罕见姿势的效果更大。根据COCO和MPII数据对DRP + WLCD和ASRP + WLCD的组合进行了实验。ASRP + WLCD的结果要低于DRP + WLCD的组合，但DRP + WLCD的组合性能优于单独使用的方法。特别是，表2（b）中的DRP + WLCD与其他所有τ相比，表现出最高的性能。
结合所有建议的方法（DRP + ASRP + WLCD），与两个基线（CPN和简单）相比，我们都提高了MPII和COCO数据集在稀有姿态下的性能。
我们提出了定义稀有姿势并改善稀有姿势性能的方法。在某些方法中，由于通常姿势和稀有姿势之间的权衡，通常姿势的性能略有下降。尽管降级是可以容忍的，但我们仍然可以使用DACP解决此问题，从而节省了推理时间。
在这里插入图片描述
图6. MPII数据集和COCO数据集中提出的方法和基线的定性结果。基于虚线，MPII结果在上方，COCO结果在下方。从左至右分别是基准线[6]，DRP，ASRP和WLCD。
图6显示了我们的方法的结果以及基于MPII验证和COCO 2017验证的样本之一的基线模型[6]。如图6所示，虽然基线模型难以估计2D姿态，但我们的提议技术对稀有姿态样本的性能更好。
表4.使用在COCO上训练的Simple [6]模型在利兹运动姿势验证数据集（LSP）上的比较准确性。在这里插入图片描述
表4是利兹运动姿势数据集（LSP）测试的实验结果。使用训练有素的简单模型[6]对COCO关键点数据进行评估，而无需学习LSP。在ndata中，全部（1000个姿势）表示所有验证数据，而选定（44个姿势）表示我们在验证数据中选择了稀有姿势的数据集。通过正确关键点百分比（PCK）来测量结果。在Head的情况下，由于COCO注释与LSP不同，因此将它们从比较中排除。除ASRP以外，所有PCK均以平均PCK（平均值）增加选定的数据。在所提出的方法中，WLCD各个方面均呈增长趋势。这是因为其他两种方法是使用现有数据域进行数据扩充，因此存在特定于域的要点。因此，WLCD在域传输方面更加强大。

六结论
在本文中，我们提出了一种用于定义稀有姿态样本的新标准以及提高样本姿态估计性能的方法。罕见姿势意味着数据中的姿势是唯一的，并且在数据集中只占一小部分。换句话说，这是整个数据分布中的异常值。我们已应用K均值聚类对异常值进行分类。通过实验确定的距离阈值阈值，我们可以定义和分类罕见的姿势。
我们已经通过实验证实，稀有姿势的准确度比其他大多数姿势要低。这是因为稀有姿势不仅是难以估计的姿势，而且在整个数据集中也只占一小部分。因此，我们提出了三种方法来解决此问题。第一种方法是在训练数据中复制定义为稀有姿势的样本，以便再次进行重复。第二种方法是学习一个模型，该模型生成合成的稀有姿态样本并将其提供给训练集。最后，我们提出了一种新颖的损失函数，该函数基于聚类距离，姿势与其对应的聚类中心之间的距离来应用权重。
我们在COCO和MPII数据集上评估了提出的方法。所提出的方法提高了由稀有姿势定义的姿势的性能。虽然我们已经确认，通过所提出的方法获得的稀有姿势的性能已得到显着改善，但不幸的是，总体姿势性能并不是由于稀有姿势数据的一小部分所致。但是，如果增加罕见姿势的比例以显着改善总体性能，则可能会变得更加有效。我们认为，必须进一步开发合成数据生成的定性数据，并将其用于更多的性能改进。

标签：姿势,Exploring,稀有,方法,Pose,样本,聚类,Estimation,数据
来源： https://blog.csdn.net/weixin_45053906/article/details/115636593

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Exploring Rare Pose in Human Pose Estimation