【Spatial-Temporal Action Localization(七)】论文阅读2022年

2023-09-21 19:17:55

1. TubeR: Tubelet Transformer for Video Action Detection

《TubeR: Tubelet Transformer for Video Action Detection》论文+代码分析

摘要和结论

1.提出了一种用于人体动作检测的Tubes Transformer的框架

2.基于tubelet-query和tubelet-attention能够生成任意位置和规模的Tubes

3.Classification Head能够聚合短期和长期的上下文信息

引言:针对痛点和贡献

在这里插入图片描述

模型框架

在这里插入图片描述

TubeR Encoder:

在这里插入图片描述

TubeR Decoder:

Tubelet query: 作者提出了一种通过学习一小组tubelet queries来代替手动设计3D anchors的方法,从而更好地表示tubelets的动态特性。其中,每个tubelet query包含了Tout个box query embeddings,用来预测tubelet在每个时间帧上的位置。

  • Tubelet attention: 为了对 tubelet query 中的关系进行建模,提出了一个 tubelet-attention (TA) 模块,其中包含两个自注意力层。self-attention layer:识别动作受益于参与者之间或同一帧中的参与者和对象之间的交互。temporal self-attention layer:这一层是为了方便TubeR查询跟踪演员并生成聚焦于单个演员而非固定区域的动作tubelet。利用TubeR查询来跟踪演员并生成聚焦于单个演员的动作tubelet,并且通过tubelet attention模块生成tubelet查询特征。
  • Decoder: 包含一个 tubelet-attention 模块和一个交叉注意(CA)层,用于从 Fen 和 Fq 解码 tubelet 特定特征 Ftub。
    在这里插入图片描述

Task-Specific Heads:

  • Context aware classification head:
    在这里插入图片描述
    在这里插入图片描述
    我们从骨干特征中查询动作特定特征 Ftub,然后从一些上下文特征 Fcontext 中获取其他信息来增强 Ftub,得到最终的分类特征 Fc。
    当我们将 Fcontext 设置为骨干特征 Fb 以利用短期上下文信息时,称其为短期上下文头。
    短期上下文头采用了自注意力层和交叉注意力层来处理上下文信息和动作特征。

  • Action switch regression head:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2. Holistic Interaction Transformer Network for Action Detection

摘要和结论

  • 提出了多模态的整体的交互的Transformer网络(multi-modal Holistic InteractionTransformer Network (HIT) ),它利用了大部分被忽视但关键的手和姿势信息,这些信息对大多数人类行为至关重要。
  • 包含RGB流和姿态流的双模态框架。它们中的每一个都分别对人、对象和手的交互进行建模
  • 在每个子网络中,引入了一个模态内聚合模块(IMA,Intra-Modality Aggregation module)来选择性地合并单个交互单元。然后使用注意力融合机制(AFM,Attentive Fusion Mechanism)将每个模态的结果特征粘合在一起。最后,我们从时间上下文中提取线索,以便使用缓存内存更好地对发生的动作进行分类。

引言:针对痛点和贡献

痛点:
-首先,这些方法只依赖于检测置信度高的对象,可能会忽略一些重要的对象,这些对象可能太小而无法被检测,或者是检测模型无法识别的新对象。例如,在图1中,演员正在与一些未被检测到的对象互动。
其次,这些模型很难检测与当前帧中不存在的对象相关的动作。例如,考虑动作“指向(一个对象)”,演员指向的对象可能不在当前帧中。
在这里插入图片描述

贡献:

  • 我们提出了一种新颖的框架,结合了 RGB、姿势和手部特征来进行动作检测。combines RGB, pose and hand features
  • 我们介绍了一种双模整体交互转换器(bi-modal Holistic Interaction Transformer,HIT)网络,它以直观和有意义的方式结合了不同类型的交互。
  • 我们提出了一个注意力融合模块(AFM),它作为一个选择性过滤器,保留每个模态中信息最丰富的特征,以及一个模态内聚合器(IMA),用于学习模态内有用的动作表示。

模型框架

在这里插入图片描述

  • 我们使用 Detectron [9] 进行人体姿势检测,并创建一个包围人手位置的边界框。遵循最先进的方法[40]、[32]、[28],我们使用 Faster-RCNN [31] 来计算对象边界框建议。视频特征提取器是一个 3D CNN 主干网络 [5],姿势编码器是受 [51] 启发的轻量级空间变换器。我们应用 ROIAlign [12] 来修剪视频特征并提取人、手和物体特征。

  • The RGB Branch:
    RGB 分支包含三个主要组件,如图 2 所示。每个组件都执行一系列操作以了解有关目标人员的特定信息。
    人物交互模块学习当前帧中人与人之间的交互(或者当帧仅包含一个主体时的自我交互)。
    物体和手交互模块分别模拟人-物体和人-手交互。
    每个交互单元的核心是交叉注意力计算,其中查询是目标人(或前一个单元的输出),键和值来自对象或手特征,具体取决于哪个模块我们现在处于(见图 3)。
    在这里插入图片描述

  • The Pose Branch:
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • The Attentive Fusion Module (AFM):
    RGB 和姿势流需要先组合成一组特征,然后再馈送到动作分类器。为此,我们提出了一个注意力融合模块,该模块应用两个特征集的通道级联,然后进行自我关注以进行特征细化。
    然后,我们通过使用所使用的投影矩阵 θf 来减少输出特征的大小。我们的消融研究中的表 5a 验证了我们的融合机制与文献中使用的其他融合类型相比的优越性。
    在这里插入图片描述
    -Temporal Interaction Unit:

在这里插入图片描述

实验

Backbone: 我们采用 SlowFast 网络 [5] 作为我们的视频主干网。
Person and Object Detector: 我们从数据集中的每个视频中提取关键帧,并使用[16]中检测到的人物边界框进行推理。作为目标检测器,我们采用 Faster-RCNN [31] 和 ResNet-50-FPN [21, 47] 主干网络。
Keypoints Detection and Processing: 我们采用 Detectron [9] 的姿势模型。作者使用在 ImageNet 上预训练的 Resnet-50-FPN 主干网络进行对象检测。

思考不足之处

  • 我们的框架依赖于使用的现成检测器和姿态估计器,并且不考虑它们的失败。 AVA数据集的大量帧拥挤且质量低。因此,检测器和姿态估计器的准确性可能会影响我们的方法。
  • 通过分析 J-HMDB 数据集的结果,我们发现了两个主要原因。第一个涉及外观相似的类,例如“throw”和“catch”,它们在视觉上是相同的。
  • 二是部分遮挡。请参阅补充材料以获取有关限制的更深入讨论。然而,在这种情况下,对象被遮挡。因此,该模型很难区分“高尔夫”和“摇摆棒球”。那么我们应该如何着手解决这些问题呢?就我们而言,我们尝试汇总尽可能多的信息。然而,拥有如此多的信息是昂贵的。这些问题的最佳答案是更好的时间支持,但这会引发另一个问题:我们如何定义“更好的时间支持”?虽然有些人可能主张更扩展的时间支持,但它会增加计算开销,同时不一定会转化为更高的检测精度。有些行动需要长期的支持,有些需要很少的支持,有些则不需要;因此,决定保留多少内存是具有挑战性的。而如果我们保留更长的内存跨度,那么对特征进行压缩的需求就会更加迫切,而大多数现有的压缩方法都是有损的。

3. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

摘要和结论

VideoMAE的自监督视频预训练方法,其使用高比例的自定义视频管道遮罩video tube masking来进行视频重构,从而鼓励提取更有效的视频表示。
作者发现,高比例的遮罩仍然可以使VideoMAE表现良好,1)极高比例的掩蔽率(即 90% 到 95%)仍然对 VideoMAE 产生了良好的性能。时间冗余视频内容比图像具有更高的掩蔽率。
并且该方法可以在非常小的数据集上取得令人印象深刻的结果。
此外,作者还发现,数据质量比数据数量更重要,因为预训练数据集与目标数据集之间的领域转移是一个重要因素。

视频数据的特性

与图像数据相比,视频数据包含了更多的帧,也具有更加丰富的运动信息。
在这里插入图片描述
在这里插入图片描述
解决方法:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型框架

在这里插入图片描述

更多推荐

十三、MySql的视图

文章目录一、前言二、定义三、为什么使用视图四、基本使用(—)创建视图(二)案例1.修改了视图,对基表数据有影响2.修改了基表,对视图有影响3.删除视图五、视图规则和限制一、前言通过视图,可以展现基表(用来创建视图的表)的部分数据;视图数据来自定义视图的查询中使用的表,使用视图动态生成。视图(子查询):是从一个或多个表导

linux上gitlab备份与还原

三Gitlab备份1.gitlab安装1.1添加镜像地址添加镜像地址的目的是为了提高国内用户软件下载的速度,编辑(新建)文件gitlab-ce.repo,指令:vi/etc/yum.repos.d/gitlab-ce.repo复制输入:[gitlab-ce]name=gitlab-ce#清华大学的镜像源baseurl=

使用vue-cli搭建SPA项目及使用和路由及路由嵌套的使用

目录一、介绍(1)概述(2)作用二、项目搭建SPA介绍讲述特点优点(1)检查(2)安装(3)构建(4)启动(5)导入三、路由及嵌套使用(1)路由(2)嵌套给我们的收获一、介绍(1)概述vue-cli是一个基于Vue.js的脚手架工具,用于快速搭建Vue.js项目的开发环境。它提供了一套完整的项目结构和开发工具,帮助开发

第十天:基于Ubuntu和gec6818开发板的QT图书管理系统完整项目设计

源码内容太多不一一展示,需要完整源码和ppt答辩的可以私聊我!一、开发环境开发工具Ubuntu18.04中QT5.9运行平台:Ubuntu18.04和gec6818arm开发板二、数据库mysql或sqlite3初始化(两个数据库都可)mysql初始化语句:initdatabase.sqlusemysql;insert

Vue之vue-cli搭建SPA项目

目录​编辑前言一、vue-cli简介1.什么是vue-cli2.vue-cli的重要性3.vue-cli的应用场景二、Vue-cli搭建SPA项目1.构建前提(node.js安装完成)2.安装vue-cli3.使用脚手架vue-cli(2.X版)来构建项目4.分析创建spa项目的八个问题5.在开发工具中导入新建的SPA

tensorflow基础

windows安装tensorflowanaconda或者pip安装tensorflow,tensorflow只支持win764系统,本人使用tensorflow1.5版本(pipinstalltensorflow==1.5)tensorboardtensorboard只支持chrome浏览器,而且加载过程中可能有一段

革命性创新:RFID技术引领汽车零部件加工新时代

革命性创新:RFID技术引领汽车零部件加工新时代RFID(RadioFrequencyIdentification,射频识别)技术是一种利用无线电频率进行自动识别的技术,可以快速、准确地识别物体并获取相关数据。在汽车零部件加工中,RFID技术可以发挥重要作用,提高生产效率、降低成本和减少错误。本文将介绍RFID在汽车零

激光焊接汽车PP塑料配件透光率测试仪

随着汽车主机厂对车辆轻量化的需求越来越强烈,汽车零部件轻量化设计、制造也成为汽车零部件生产厂商的重要技术指标。零部件企业要实现产品的轻量化,在材料指定的情况下,要通过产品设计优化、产品壁厚减小和装配方式的优化来解决。使用PP材料的汽车部品由于PP材料缩水率高,薄壁化设计会带来后续开发过程产品表面缩水、顶杆痕、应力痕等缺

最新Java JDK 21:全面解析与新特性探讨

🌷🍁博主猫头虎带您GotoNewWorld.✨🍁🦄博客首页——猫头虎的博客🎐🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》学会IDEA常用操作,工作效率翻倍~💐🌊《100天精通Golang(基础入门篇)》学会Golang语言,畅玩云原生,走遍大

ChatGPT与日本首相交流核废水事件-精准Prompt...

了解更多请点击:ChatGPT与日本首相交流核废水事件-精准Prompt...https://mp.weixin.qq.com/s?__biz=Mzg2NDY3NjY5NA==&mid=2247490070&idx=1&sn=ebdc608acd419bb3e71ca46acee04890&chksm=ce64e42f

时序数据库 IoTDB 发布端边云原生解决方案,有效优化工业互联网数据上传时效与资源消耗...

2023年9月8日,由中国通信学会、福建省工业和信息化厅主办的2023中国国际工业互联网创新发展大会在厦门举办。大会主论坛中,时序数据库IoTDB发表其自研建立的端边云原生解决方案,该方案可实现端侧设备、边缘服务器、数据中心数据的协同汇聚,达到数据实时上传、带宽成本控制、与多终端同步管理。01关于大会为贯彻落实国家两个

热文推荐