ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

FastHand

2021-02-22 19:03:08  阅读:776  来源: 互联网

标签:采样 21 256 网络 使用 FastHand 数据


FastHand: Fast Hand Pose Estimation From A Monocular Camera

论文地址

数据集

Dataset Usage Des image resolution Joints Images
Yotube2D Training Real-world 256 × 256 21 47125
GANeratedHands Training Synthetic 256 × 256 21 141449
STB Test Real-world 640 × 480 21 6000
RHD Test Synthetic 320 × 320 21 2727
  • 网络部分

Top-to-Down方式,先用mobilenetv2-SSD检测,之后使用指数平均进行跟踪,最后使用heatmap估计函数进行姿态估计

网络部分未用特殊操作,上图 \((b)\) 下采样直接使用并行的conv+pooling(在所有阶段使用),上图 \((c)\) 上采样直接resize(等于双线性插值,在encoder部分使用),decoder部分的上采样使用三次deconvolution

  • 跟踪部分

滑动平均的方式改成指数平均

\[P_{cur} = \sum_{k=0}^{n}{P_{k} \times \frac{e^{-k}}{\sum_{j=0}^{n}{e^{-j}}}} \]

\(P_{k}\) 当前bbox的位置,这里怎么编码怎么来(\(c_x\ c_y\ w\ h\) 或 \(\ x_{min}\ y_{min}\ x_{max}\ y_{max}\)),\(n\) 表示加权平均的数量。

  • 比较结果

不清楚作者有没有把 \(NSRM-Net\) 等网络使用youtube2D+GANeratedHands进行训练,如果直接按照原始论文进行比较结果无意义,公认的STB数据集太简单很容易过拟合,RHD数据集和实际数据差别有点大,Onehand数据数量较少(实际使用有点不干净)。

  • 个人观点
  • [x] 当前关键点估计网络基本都会使用hourglass结构
  • [x] 按照下图划分,其实作者就是使用了两层hourglass
  • [x] 关于作者给出的上\下采用具体有没有效果,论文未给数据对比。

    • 比如yolov5使用的focus结构下采样
    • 比如pixelshuffle的上采样
    • 等等
  • [x] 作者说思路和media-pipe比较类似,个人感觉google的创新主要在于使用heatmap进行弱监督

标签:采样,21,256,网络,使用,FastHand,数据
来源: https://www.cnblogs.com/wjy-lulu/p/14432067.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有