首页 > 其他分享> 文章详细

【CVPR 2019】论文阅读：3D human pose estimation in video with temporal convolutions and semi-supervised tr

2022-02-27 22:00:07 阅读：354 来源： 互联网

标签：training semi 卷积 pose 2D 作者 MPJPE 3D

2019 CVPR的文章，使用时序卷积和半监督训练的3D人体姿态估计

论文链接：https://arxiv.org/abs/1811.11742

github：https://github.com/facebookresearch/VideoPose3D

已经有前辈对这篇文章做过理解：https://www.cnblogs.com/zeroonegame/p/15037269.html

此处不介绍引言和相关工作，具体可参考前辈的阅读笔记，写的已经很好了。本文也只是做一个阅读记录。

摘要

这篇文章主要工作：

（1）使用基于空洞时序卷积的全卷积模型评估视频中的3D姿势

（2）引入了半监督训练方法，作者称为back-projection

2. 模型内容

2.1 Temporal dilated convolutional model

时序卷积模型将2D关键点序列作为输入，生成3D姿态估计，其间采用空洞卷积来提取时序信息。

关于空洞卷积，贴一个链接：https://zhuanlan.zhihu.com/p/113285797

上图为网络结构图，输入为（243，34）大小的2D关键点序列，开始为一个不完整的块，将输出通道数设置为1024，后续由四个包含残差结构的块组成，最后一层输出所有帧的的三维姿态预测。

以第一个块为例，绿色部分为卷积层，每个块前后有两个卷积层，前者的卷积核（kernel size）W大小为3，后者的为1。前者的空洞卷积超参数(dilated factor) D = W^B，B的大小取决于当前处在第几个块，如第一个块D=3^1=3，网络中则为3d3，以此类推第四个块为3d81。卷积之后经过归一化，线性函数ReLU和Dropout后输出特征。每一个块输出的特征，类似于ResNet，经过一次slice操作后又加入到下下个块中，防止梯度消失。这边的slice操作是为了匹配前后两个块的张量大小，确保能够进行残差连接。

作者主要采用的是如下图的对称卷积：

为了用于实时场景，实际是不能用到未来帧的，作者也尝试了如下图的因果卷积（causal convolutions,）

2.2 Semi-supervised approach

作者利用现成的2D关键点检测器（2D keypoint detector）和back-projection相结合，将未标注的视频产生的loss加到总loss中，以加强监督学习

2.2.1 Trajectory model

由于透视投影，屏幕中的2D姿态取决于轨迹（trajectory）和3D姿势，轨迹可以是人体根关节的全局位置，从figure 3可以看出，最后通过译码器投影出的2D姿势，包含了global position和 3D pose两部分信息。

如果没有这个全局位置信息，那么2D姿势的主体会被固定投影在屏幕的中心。因此，这边也对3D轨迹进行了回归，以正确的进行2D反向投影。

为此，优化了第二个网络，这个网络在相机空间中对gloabl trajectory进行回归，后者将其投影到2D之前加到姿势中。两个网络具有相同的架构，但不共享一套参数，因为作者发现以多任务方式训练时，两者会产生负面影响。

如果人体离相机较远，就会更加难以对起trajectory进行精确回归，因此作者优化了trajectory的加权平均关节位置误差（WMPJPE）损失函数：

使用相机空间中的真实深度值（y_z）的倒数对每个样本进行加权，对于我们的目的来说，回归远目标的精确trajectory是不必要的，因为相应的2D keypoints往往集中在一个小区域周围，因此对于目标越远的目标，loss权重越低。

2.2.3 Bone length L2 loss

作者通过添加一个软约束，对无标签batch中subjects的平均骨长与有标签batch的subjects的骨长做近似匹配，发现效果是更好的，即figure 3中计算的Bone length L2 Loss。计算这个loss对自监督学习起到了很重要的作用。

2.3 Discuss

该方法仅需要一些相机的内置参数，这些参数基本商业相机都能够提供。该方法不依赖于特定的网络结构，可以应用在任何以2D关键点作为输入的3D姿态检测器中。

在实验中，作者按照本章中描述的架构将2D姿势映射到三维，为了将3D姿势重新投影到2D，作者使用了一个简单的投影层，该投影层考虑到了线性参数（焦距、焦点）和非线性的镜头畸变系数（切向、径向）来实现。这边也提到了在Human3.6M数据集中使用的镜头畸变参数对于姿态估计几乎没有影响，但仍然将其囊括进来，因为是相机真实的一个参数。

3. 实验及结果

3.1 实验设置

评估使用的数据集：Human3.6M 和 HumanEva-I

Human3.6M中标志了3D姿态的7个子集，从中提取17的关节点，（S1,S5,S6,S7,S8）作为训练集，（S9, S11）作为测试集。

HumanEva-I相对小得多，从三个视角记录同一个对象，作者既通过对每个动作训练不同模型来评估三个动作，也未所有动作训练了一个模型。

衡量指标：MPJPE、P-MPJPE、N-MPJPE

3.2 实现细节

3.2.1 Implementation details for 2D pose estimation

之前的工作大部分都是在ground-truth bounding boxes提取目标，后使用stacked hourglass detector预测ground-truth bounding boxes中的2D关键点的位置。这篇文章并不依赖于任何特定的2D关键点检测器。作者研究了集中不依赖于ground-truth boxes的2D detectors，使得该实验在真实场景也可用。

除了stacked hourglass detector ，作者研究了包含一个ResNet-101-FPN bone的Mask-R-CNN网络，参考其在Detectron中的实现，以及cascaded pyramid network(CPN) ——FPN表示的扩展，CPN实现需要外部提供边界框（在这一情况下使用Mask R-CNN）

对于Mask R-CNN和CPN，因为关键点在COCO和Human3.6M不同，作者在COCO上进行预训练，后在Huaman3.6M上fine-tune 2D投影的检测器。在消融实验中，作者还实验了直接将3D姿态估计应用于预训练的2D COCO关键点，以估计Human3.6M中的3D joints。

对于Mask R-CNN，作者采用了“stretched 1x”表训练的ResNet-101作为backbone。微调时重新初始化了最后一层的keypoint network，反卷积层，来回归hetmaps来学习一组新的keypoints。使用4个GPU进行步长衰减学习率训练。

CPN使用输入分辨率为384x288的ResNet-50作为backbone，微调时重新初始化GlobalNet和RefineNet的最后一层。训练时采用指数衰减学习率。在微调时保持batch normalization。

下图为作者研究的几个2D key joints检测器的效果对比

3.2.2 Implementation details for 3D pose estimation

这部分留个坑

3.3 结果

3.3.1 Temporal dilated convolutional model

下面两张表显示的是B=4blocks，receptive field=243 frames时的结果，可以看到两个指标的效果普遍是比较好的，（+）表示需要额外依赖数据。

MPJPE Metric

P-MPJPE Metric

table 2展示了在单帧情况和时序情况下实现3D pose预测的Velocity error，即3D pose sequence的MPJPE（mean per-joint position error）的一阶倒数，这一失序模型将单帧的MPJVE（measure joint velocity errors）平均降低了76%。

可以这么理解，绝位置对误差（Abosolute position errors）是无法衡量预测的平滑性的，需要对其进行求导，一般误差越大，就越不平滑，误差越小，就会越平滑。

table4展示了在HumanEva-I的结果，结果也是很好的，说明可以推广到更小的数据集上。

table 5 对比了与LSTM的复杂度，主要比较参数量、浮点运算量和MPJPE，27f表示使用27个frame预测一个3D pose，类似的，81f表示81 frames预测一个3D pose。

3.3.2 Semi-supervised approach

Figure 5a 显示，随着标记数据量的减少，半监督方法变得更加有效，当标记帧少于5K时，要比以 supervised 为 baseline的效果提升大约9-10.4 mm N-MPJPE

Figure 5b显示了对数据集进行非下采样版本的结果，这种设置方法更加适合这个模型，因为可以充分利用视频中完整的时间信息，即使在感受野为27或者9时，也比baseline效果好上很多。

Figure 5c 更换了2D keypoints detector，发现会影响最终的误差，说明一个好的detector是很重要的，最高可以提高22.6mm MPJPE（1% S1的情况下）

4. Conclution

本文介绍了一个简单的全卷积模型。用于视频中的3D人体估计。主要贡献在于两个：

（1）该架构通过在2D keypoint trajectory上使用空洞卷积，利用了视频中的时序信息。

（2）使用半监督训练，提高了数据缺少时的效果。该方法使用于未标记视频，且只需要用到相机的一些内部参数。

附录部分还有不少内容，作者其实做了很多工作，后续要学习一下代码才能更深入领会。

标签：training,semi,卷积,pose,2D,作者,MPJPE,3D
来源： https://www.cnblogs.com/Nothing-is-easy/p/15938791.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【CVPR 2019】 论文阅读：3D human pose estimation in video with temporal convolutions and semi-supervised tr

摘要