ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

动作/行为识别调研

2021-07-08 10:29:49  阅读:217  来源: 互联网

标签:视频 架构 动作 双流 3D 光流 识别 调研


动作识别调研

1. 简介

动作/行为识别,也可称为(Human Action/Activity Recognition,HAR),就是从视频片段(可视为2D帧序列)中分辨人的动作类型。
在这里插入图片描述

在这里插入图片描述

  • 从操作角度,可以看作将视频转换为多个RGB帧,再对多帧组合进行特征提取,最后融合并分类。
  • 从实现方法,可以分为传统方法和深度学习方法,目前传统方法最好的是iDT,深度学习有双流框架,3D卷积框架等等方法。
  • 从检测角度,一般分为基于骨骼点检测和基于RBG视频检测,也有数据来源深度传感器。

1.1 基本概念

  • 图像识别的四类任务:

    • 分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标。
    • 定位-Location:解决“在哪里?”的问题,即定位出这个目标的的位置。
    • 检测-Detection:解决“在哪里?是什么?”的问题,即定位出这个目标的位置并且知道目标物是什么。
    • 分割-Segmentation:分为实例的分割(Instance-level)和场景分割(Scene-level),解决“每一个像素属于哪个目标物或场景”的问题。
  • 动作识别vs姿态估计:姿态估计是在RGB图像或视频中描绘出人体的形状,包括关键点的检测,如下图所示。使用姿态估计的骨骼点数据也可作为动作识别的输入。
    在这里插入图片描述

  • 动作识别vs目标检测(Object Detection):目标检测是识别图片或者视频中有哪些物体以及物体的位置,也就是进行目标定位加上分类。如果用目标检测算法进行行为识别的弊端是缺乏前后语义相关性,假如摔倒的判断是由一个从"站立-滑倒-倒下"的过程,我们才能判断为摔倒,不能凭借目标检测算法检测到人是倒下的就判断为摔倒。
    在这里插入图片描述

  • 光流(optical flow)

    • 当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜(即图像平面),好像一种光的“流”,故称之为光流

    • 光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

    • 光流的物理意义

      • 光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。

      • 光流通常被表述为估计世界真实三维运动的二维投影的问题,可以被看作是连续帧之间的位移矢量场,用

        标签:视频,架构,动作,双流,3D,光流,识别,调研
        来源: https://blog.csdn.net/sleepinghm/article/details/118567828

        本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
        2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
        3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
        4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
        5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有