【CVPR2017，action recognition,动作识别】Quo Vadis, Action Recognition? A New Model and the Kinetics Datase

2021-05-24 12:51:50 阅读：144 来源： 互联网

标签：视频 CVPR2017 卷积 Kinetics tream Dataset 正确率数据

本文只主要有两个贡献。

ImageNet表明在足够大的数据集上训练网络之后，在其他的数据集甚至其它类型的任务上直接使用pre-trained参数初始化能够取得很好的效果。本文探究了在足够大的视频数据集Kinetics上训练了之后在UCF101和HMDB51上能够得到非常好的效果，可以达到在目前最好的效果。
总结了经典的动作分类方法，提出了一个新的结构组合方式，即把3Dconv应用到two-tream的两个分支中，而且输入的是整个视频。中并做了对比实验。

在各个数据集上都得到了最好的正确率。但是作者的新结构输入的数据更多，这样直接对比我觉得有点不公平。TSN+Two-tream只在4块Titan上训练了9个小时，文中的网络用了64块GPU，这不能充分说明作者提出的网络结构更好。在two-tream上也加大输入的数据量对比更有说服力一点。

另外作者提出时间域卷积和空间域卷积和池化不一定要相同的步长，时间域卷积太快可能会导致在空间域上还没有获得特征就被来自不同帧的图像重叠破坏掉了，时间域卷积太慢又可能抓不住运动特征。作者在第前两次池化时在时间域上的长度为1，说这样得到的效果比较好，其中的原因没有搞太清楚，我猜想可能这样有助于捕捉细粒度的运动信息。

另外从上图的数据来看，I3D在Kinetics首次实现了RGB的正确率超过Flow，说明I3D确实是能够直接中原始视频中捕获时序信息的。

标签：视频,CVPR2017,卷积,Kinetics,tream,Dataset,正确率,数据
来源： https://blog.51cto.com/u_15220607/2806819

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【CVPR2017，action recognition,动作识别】Quo Vadis, Action Recognition? A New Model and the Kinetics Datase