【论文记录】Boosting Detection in Crowd Analysis via Underutilized Output Features

2023-09-14 20:32:35

Boosting Detection in Crowd Analysis via Underutilized Output Features

Abstract

  Crowd Hat使用一种混合的2D-1D压缩技术进行细化空间特征与获取特定人群信息的空间和数量分布。进一步的,Crowd Hat采用自适应区域的NMS阈值与一个解耦然后对齐的范式来解决基于检测方法的缺陷。

Methodology

  作者认为检测得到预测的Bounding Boxes和Proposals包含丰富的特定人群信息。作者采用检测结果的区域尺寸和置信度分数。他认为这些特征对于人群分析是Pure。
image.png

Output Feature Compression

  直接把检测结果的中心坐标映射到输入图片上,得到的生成特征图存在着预测的Bounding Boxes和Proposals数量远小于图片中像素的数量,会导致特征图过于稀疏无法传递关键信息。
  作者提出了一种混合的2D-1D压缩方法进一步细化输出特征,获得这些特定人群信息的空间和数量分布。
image.png

2D Compression

  作者首先根据Proposal或者Bounding Box的中心坐标把他们映射到输入图片上,然后把图片分成S×S个Patches,将Patches的元素相加获得压缩矩阵M中的相应元素。
image.png
image.png

1D Compression

  1D压缩用来寻找输出特征的数值分布。例如一个低的输出Bounding box area sizes分布可能暗示一个很高的人群密度。
  首先,作者正则化置信度分数和区域尺寸值到[0,1]区间。然后将区间分成L个间隔。最后,计算落入每个区间值的数量。
image.png
image.png
image.png

Crowd Hat Network

  把2D压缩矩阵堆叠成t2d,把1D压缩矩阵堆叠成t1d
image.png

Region-Adaptive NMS Decoder

  将全局特征与局部特征进行连接,然后输入到MLP中,生成region-adaptive NMS阈值。
image.png

Decouple-then-Align Paradigm

  作者通过直接使用全局特征回归人群数量,对模型的检测过程与计数过程进行了解耦,使用一个独立的MLP作为Count Decoder PC去预测人群数量。
image.png
  将Bounding Boxes与Count中值小的且置信度高的作为最终结果。

Summary

  本文的主要思想是通过Proposals和Bounding Boxes获取特定人群的空间信息和数值信息,根据这些信息学习自适应的NMS阈值与人群数量。
image.png

更多推荐

Python 实现 PDF 文件转换为图片 / PaddleOCR

文章用于学习记录文章目录前言一、PDF文件转换为图片二、OCR图片文字识别提取三、服务器端下载运行PaddleOCR四、下载权重文件总结前言文字识别(OpticalCharacterRecognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。一、PDF文件转换为

解决tomcat中文乱码问题终极大招

前言乱码问题是所有开发人员一定会遇到的问题,可惜的是,讲乱码解决方案的人往往讲不到重点。我们都知道引起乱码的原因就是编码不一样导致的。所以我们的终极解决方案就是让程序里的编码和tomcat的编码一致就行。由此引出了我们的第一个问题,tomcat控制台的编码是多少?tomcat控制台的编码是多少?这个问题很多人都会让你去

[2023.09.15]: Yew SSR模式下的条件编译问题

昨天才写了Rust的条件编译,没想到这个问题还没完。昨天我还为它的强大而赞叹不已,自以为对它了解了八九成,然而今天我才猛然意识到,这个里面的深度远超我的想象。我估计,我现在只了解其中的冰山一角吧。故事从客户端post数据的后端api说起。习以为常的思维影响着我解决问题的方式,对于这种问题,我通常会寻找一个库来处理后端的

(入门向)面向萌新的算法比赛入门指南

什么是算法算法是指解决问题或完成特定任务的一系列明确指令或步骤集合。它是一个定义良好、逐步执行的操作序列,用于将输入转换为输出。算法可用于计算、数据处理、自动化控制、问题解决等各个领域。算法通常由一系列简单的操作组成,这些操作可以是基本的数学运算、逻辑判断、条件分支、循环控制等。通过组合和重复执行这些操作,算法能够解决

大模型从入门到应用——LangChain:代理(Agents)-[工具包(Toolkit)]

分类目录:《大模型从入门到应用》总目录LangChain系列文章:基础知识快速入门安装与环境配置链(Chains)、代理(Agent:)和记忆(Memory)快速开发聊天模型模型(Models)基础知识大型语言模型(LLMs)基础知识LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM(HumanInpu

数据结构——红黑树

1.什么是红黑树?红黑树是一种特定类型的二叉树,用于组织数据。它是一种平衡二叉查找树(AVL树)的变体,每个结点都带有颜色属性(红色或黑色)。在红黑树中,从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。具体来说,红黑树满足以下性质:每个结点要么是红色,要么是黑色。根结点是黑色。每个叶结点(NIL或空结点)是黑色

PHP8的类与对象的基本操作之类的实例化-PHP8知识详解

定义完类和方法后,并不是真正创建一个对象。类和对象可以描述为如下关系。类用来描述具有相同数据结构和特征的“一组对象”,“类”是“对象”的抽象,而“对象”是“类”的具体实例,即一个类中的对象具有相同的“型”,但其中每个对象却具有各不相同的“值”。例如,人就是一个抽象概念,即人类,但是程序员小张就是人类中具体的一个实例,即

TSINGSEE视频AI智能分析技术:水泥厂安全生产智能监管解决方案

一、方案背景随着人工智能技术的快速发展以及视频监控系统在全国范围内的迅速推进,基于AI视频智能分析技术的智能视频监控与智慧监管系统,也已经成为当前行业的发展趋势。在工业制造与工业生产领域,工厂对设备的巡检管理、维护维修、资产管理、安全运行管理等方面也提出了更高的监管要求。二、方案介绍TSINGSEE青犀视频围绕AI算法

网络安全(黑客)自学笔记

前言作为一个合格的网络安全工程师,应该做到攻守兼备,毕竟知己知彼,才能百战百胜。计算机各领域的知识水平决定你渗透水平的上限。【1】比如:你编程水平高,那你在代码审计的时候就会比别人强,写出的漏洞利用工具就会比别人的好用;【2】比如:你数据库知识水平高,那你在进行SQL注入攻击的时候,你就可以写出更多更好的SQL注入语句

【算法】算法设计与分析 课程笔记 第一章 概述

第一章算法概述算法的性质算法的四个性质:输入、输出、确定性和有穷性。算法的时间复杂度1.常见的时间复杂度常数阶O(1)对数阶O(logn)线性阶O(n)线性对数阶O(nlogn)平方阶O(n^2)立方阶O(n^3)k次方阶O(n^k)指数阶O(2^n)注:上面的logn均代表以2为底的对数。2.时间复杂度排序常见的算法

【web开发】10、数据统计(echarts)--柱状图、折线图、饼图

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、echarts是什么?二、使用步骤1.引入CDN2.设置高度&宽度3.后端4.前端前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础

热文推荐