【Spatial-Temporal Action Localization(六)】论文阅读2021年

2023-09-20 15:20:30

1. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

[ICCV 2021] MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

摘要和结论

基于对现有数据集的分析,作者认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步。
我们希望这个数据集满足以下特征:

  • 多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。
  • 分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。
  • 时序:动作边界定义准确。
  • 跟踪:运动速度快,形变大,存在遮挡

引言:针对痛点和贡献

痛点:
在这里插入图片描述

贡献:

提出了一个新数据集MultiSports。

数据特点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2. Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization


摘要和结论

最近的进展是通过对实体之间的直接成对关系建模来实现的。在本文中,我们更进一步,不仅模拟了对之间的直接关系,而且还考虑了建立在多个元素上的间接高阶关系。
设计了一个 Actor-Context-Actor 关系网络 (ACAR-Net),它建立在一个新的高阶关系推理算子和一个 Actor-Context 特征库的基础上,以实现时空动作定位的间接关系推理。

引言:针对痛点和贡献

痛点:

  • 以前的工作使用图神经网络 (GNN) 隐式建模参与者和上下文对象之间的高阶交互 。然而,在这些方法中,需要额外的预先训练的对象检测器,只使用定位的对象作为上下文
  • 这些方法中的高阶关系仅限于仅从上下文对象中推断出来,这可能会错过动作分类的重要环境或背景线索。
    贡献:
  • 推理操作使用 Actor-Context Feature Bank (ACFB) 进行扩展。

模型框架

在这里插入图片描述

  • 该框架是基于一个现成的人体检测器(例如 Faster R-CNN )和一个视频骨干网络(例如 I3D)。然后,建议的 ACAR 模块使用长期 Actor-Context 特征库处理人物和上下文特征,以进行最终动作预测。
  • ACAR 模块有两个主要操作。 (1) 它首先编码演员之间的一阶演员-上下文关系和时空上下文的空间位置。基于参与者-上下文关系,我们进一步集成了一个高阶关系推理算子( H R 2 O ) ( HR ^2 O)(HR 2 O),用于对一阶关系对之间的交互进行建模,这些一阶关系是以前的方法大多忽略的间接关系。 (2) 我们的推理操作通过 Actor-Context Feature Bank (ACFB) 进行了扩展。该库包含不同时间戳的参与者-上下文关系,并且可以提供比现有的仅包含参与者特征的长期特征库[46]更完整的时空上下文。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

热图说明了来自参与者-上下文-参与者关系推理的上下文区域的注意力权重 Atti,j。我们观察到我们的模型已经学会了关注参与者和上下文之间的有用关系,上下文是连接演员的桥梁。

3. Relation Modeling in Spatio-Temporal Action Localization

摘要和结论

  • 我们的解决方案利用多种类型的关系建模 Relation Modeling 方法进行时空动作检测
  • 并采用端到端集成多种关系建模的训练策略对两个大规模视频数据集进行训练。
  • 还研究了记忆库学习和长尾分布的微调,以进一步提高性能。

模型框架

首先采用现成的人体检测器来生成视频中的所有人体边界框。然后我们采用骨干模型来提取视觉特征,并通过 roi align 在每个人的特征图上构建关系模块。在关系模块之后,使用动作预测器为每个动作类别生成分数。

在这里插入图片描述

  • 给定输入视频剪辑,提取该剪辑的关键帧并将其输入 2D 人物检测器,以生成该剪辑内的人物边界框。
  • 整个视频剪辑按指定间隔采样为帧,并使用视频主干进行编码,例如SlowFast 和 CSN ,输出 3D 视频特征图。
  • 然后,2D 人物框沿时间维度膨胀,并用于通过 3D RoI-Align 从特征图中提取人物特征。
  • 池化的人物特征通过通道级联和卷积层进一步与视频特征图融合在一起。
  • 为了对同一视频剪辑中的人物之间的隐藏关系进行建模,以提高动作预测的有效性,我们使用基于transformer的块将人物特征输入到我们的关系建模模块中。
  • 为了指定空间和时间关系,我们从不同的人中选择沿相同空间或时间维度的特征。选定的特征被展平为一系列标记,并输入到transformer编码器块中,以通过注意机制对它们的关系进行建模。
  • 最后,所有块在空间或时间维度上的输出标记被全局平均并输入全连接层以预测每个检测到的人的动作类别。

长尾数据的学习策略

我们考虑[11]中的解耦策略。训练过程被解耦为两个阶段。第一阶段遵循使用随机采样数据的正常训练策略。在第二阶段,我们冻结除最终分类器之外的所有模型,并使用类平衡数据采样进行训练。这样的策略有助于提高小类的表现。

[11] Decoupling Representation and Classifier for Long-Tailed Recognition

更多推荐

STM32WB55开发(3)----断开蓝牙连接

STM32WB55开发----3.断开蓝牙连接概述硬件准备视频教学样品申请源码下载选择芯片型号配置时钟源配置时钟树RTC时钟配置查看开启STM32_WPAN条件配置HSEM配置IPCC配置RTC启动RF开启蓝牙LED配置设置工程信息工程文件设置参考文档SVCCTL_App_NotificationACI_HAL_GET

【C++】继承

文章目录一、继承的定义1.1继承的定义方式1.2继承关系与访问限定符二、基类和派生类对象赋值转换三、继承中的作用域四、派生类的默认成员函数五、继承和友元六、继承和静态成员六、多继承导致的菱形继承七、继承总结一、继承的定义继承(inheritance)机制是面向对象程序设计使代码可以复用的最重要的手段,它允许程序员在保持

ARM如何利用PMU的Cycle Counter(时钟周期)来计算出CPU的时钟频率

本章将学习如何利用ARMPMU的CycleCounter,来计算出CPU的时钟周期,从而计算出CPU的时钟频率。在介绍计算方法前,有必要先介绍下什么是时钟周期、机器周期以及指令周期。如何计算出CPU的时钟频率一,时钟周期,机器周期以及指令周期1.1时钟周期(clockcycle)以及时钟频率(clockfrequenc

SQL plus简单使用

查看Oracle数据库全部数据库数据库名称SELECTnameFROMv$database;这将返回所有数据库的名称。视图通过SQL查询dba_registry视图:另一个查看数据库的方法是查询dba_registry视图,该视图包含了数据库中安装的所有组件的信息。以下是示例SQL查询:SELECTcomp_nameF

我的git笔记

git加速https://ghproxy.com/https://github.com/cudpp/cudpp.gitgitclonehttps://ghproxy.com/https://github.com/triple-Mu/YOLOv8-TensorRT.git安装git#删除当前gitsudoapt-getr

002-第一代硬件系统架构确立及产品选型

第一代硬件系统架构确立及产品选型文章目录第一代硬件系统架构确立及产品选型项目介绍摘要硬件架构硬件结构选型及设计单片机选型上位机选型扯点别的关键字:Qt、Qml、信号采集机、数据处理、上位机项目介绍欢迎来到我们的QML&C++项目!这个项目结合了QML(QtMeta-ObjectLanguage)和C++的强大功能,旨在

clickhouse学习之路----clickhouse的特点及安装

clickhouse学习笔记反正都有学不完的技术,不如就学一学clickhouse吧文章目录clickhouse学习笔记clickhouse的特点1.列式存储2.DBMS的功能3.多样化引擎4.高吞吐写入能力5.数据分区与线程级并行clickhouse安装1.关闭防火墙2.CentOS取消打开文件数限制3.安装依赖4.

在SpringBoot中如何整合数据源?

在企业级应用开发中,数据存储是必不可少的一环。为了简化数据访问层的开发,SpringBoot提供了对多种数据源的整合支持。本文将介绍如何在SpringBoot项目中整合常见的数据源,包括JdbcTemplate、MyBatis和JPA,并探讨如何配置和使用多数据源。1.数据源的选择与配置1.1.常见的数据源类型在Jav

2020-2023中国高等级自动驾驶产业发展趋势研究-概念界定

1.1概念界定自动驾驶发展过程中,中国出现了诸多专注于研发L3级以上自动驾驶的公司,其在业界地位也越来越重要。本报告围绕“高等级自动驾驶”展开,并聚焦于该技术2020-2023年在中国市场的变化趋势进行研究。1.1.1什么是自动驾驶自动驾驶汽车[1]是指:搭载先进车载传感器、控制器、执行器等装置,并融合现代通信与网络技

SQL Server 入门知识

🙈作者简介:练习时长两年半的Javaup主🙉个人主页:程序员老茶🙊ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎📚系列专栏:Java全栈,计算机系列(火速更新中)💭格言:种一棵树最好的时间是十年前,其次是现在🏡动动小手,点个关注不迷路,感谢宝子们一键三连目录课程名:SQLServer内容/作用

Redis面试题(三)

文章目录前言一、怎么理解Redis事务?二、Redis事务相关的命令有哪几个?三、Rediskey的过期时间和永久有效分别怎么设置?四、Redis如何做内存优化?五、Redis回收进程如何工作的?六、加锁机制总结前言怎么理解Redis事务?Redis事务相关的命令有哪几个?Rediskey的过期时间和永久有效分别怎么设

热文推荐