FastHand

2021-02-22 19:03:08 阅读：776 来源： 互联网

FastHand: Fast Hand Pose Estimation From A Monocular Camera

数据集：

Dataset	Usage	Des	image resolution	Joints	Images
Yotube2D	Training	Real-world	256 × 256	21	47125
GANeratedHands	Training	Synthetic	256 × 256	21	141449
STB	Test	Real-world	640 × 480	21	6000
RHD	Test	Synthetic	320 × 320	21	2727

网络部分

Top-to-Down方式，先用mobilenetv2-SSD检测，之后使用指数平均进行跟踪，最后使用heatmap估计函数进行姿态估计

网络部分未用特殊操作，上图 \((b)\) 下采样直接使用并行的conv+pooling（在所有阶段使用），上图 \((c)\) 上采样直接resize（等于双线性插值，在encoder部分使用），decoder部分的上采样使用三次deconvolution

跟踪部分

滑动平均的方式改成指数平均

\[P_{cur} = \sum_{k=0}^{n}{P_{k} \times \frac{e^{-k}}{\sum_{j=0}^{n}{e^{-j}}}} \]

\(P_{k}\) 当前bbox的位置，这里怎么编码怎么来（\(c_x\ c_y\ w\ h\) 或 \(\ x_{min}\ y_{min}\ x_{max}\ y_{max}\)），\(n\) 表示加权平均的数量。

比较结果

不清楚作者有没有把 \(NSRM-Net\) 等网络使用youtube2D+GANeratedHands进行训练，如果直接按照原始论文进行比较结果无意义，公认的STB数据集太简单很容易过拟合，RHD数据集和实际数据差别有点大，Onehand数据数量较少（实际使用有点不干净）。

个人观点
[x] 当前关键点估计网络基本都会使用hourglass结构
[x] 按照下图划分，其实作者就是使用了两层hourglass

[x] 关于作者给出的上\下采用具体有没有效果，论文未给数据对比。
- 比如yolov5使用的focus结构下采样
- 比如pixelshuffle的上采样
- 等等
[x] 作者说思路和media-pipe比较类似，个人感觉google的创新主要在于使用heatmap进行弱监督

标签：采样,21,256,网络,使用,FastHand,数据
来源： https://www.cnblogs.com/wjy-lulu/p/14432067.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

FastHand

FastHand: Fast Hand Pose Estimation From A Monocular Camera