PROB: Probabilistic Objectness for Open World Object Detection(论文解析)

2023-09-16 10:55:32

PROB: Probabilistic Objectness for Open World Object Detection

摘要

开放世界目标检测(OWOD)是一个新的、具有挑战性的计算机视觉任务,它弥合了传统的目标检测(OD)基准和现实世界中的目标检测之间的差距。除了检测和分类已知/标记的对象外,OWOD算法还应该能够检测新颖/未知的对象,这些对象可以进行分类和增量学习。在标准的OD中,不与已标记对象重叠的对象提议会自动分类为背景。因此,简单地将OD方法应用于OWOD会失败,因为未知对象将被预测为背景。检测未知对象的挑战源于在区分未知对象和背景对象提议方面缺乏监督。先前的OWOD方法尝试通过生成伪标签来克服这个问题,然而未知对象的检测性能一直较低。概率/生成模型可能为解决这一挑战提供了解决方案。在这里,我们介绍了一种用于目标性估计的新颖概率框架,我们在嵌入特征空间中交替进行概率分布估计和已知对象的目标性似然最大化,最终使我们能够估计不同提议的目标性概率。由此产生的基于概率的目标性变换型开放世界检测器 PROB 将我们的框架集成到传统的目标检测模型中,使它们适应开放世界的设置。在OWOD基准上进行的全面实验显示,PROB在未知对象检测(∼ 2×未知召回率)和已知对象检测(∼ 10% mAP)方面优于所有现有的OWOD方法。我们的代码可在https://github.com/orrzohar/PROB 上找到。

2 相关工作

开放世界目标检测
开放世界目标检测任务是由Joseph等人[10]最近引入的,已经引起了很多关注[8, 18, 25, 29–31, 34],因为它可能在现实世界中产生重要影响。在他们的工作中,Joseph等人[10]引入了ORE,该方法通过特征空间对比聚类、基于RPN的未知对象检测器以及基于能量的未知对象标识器(EBUI)来调整faster-RCNN模型,以实现OWOD目标。Yu等人[31]尝试扩展ORE,通过将特征聚类的数量设置为类别数量,以最小化嵌入特征空间中已知和未知类别之间的重叠分布,减少了已知和未知对象之间的混淆。与此同时,Wu等人[29]试图通过引入第二个基于定位的目标性检测头(由Kim等人[11]引入)来扩展ORE,并报告了在未知对象召回方面的增益,从而证明了目标性在OWOD中的实用性。

最近,当Gupta等人[8]调整了可变形DETR模型用于开放世界目标时,Transformer-based方法在OWOD目标中表现出了巨大潜力,并引入了OW-DETR。OW-DETR使用伪标记方案来监督未知对象的检测,其中选择了与高级别骨干激活不匹配的对象提议作为未知对象。Maaz等人[19]报告了多模态视觉Transformer(MViTs)的高类别无关目标检测能力。他们随后利用MViTs来监督ORE的未知对象检测,并报告了其性能的显著增益(∼ 4×)。尽管Maaz等人的工作侧重于类别无关的目标检测,并未引入OWOD方法,但他们的工作激发了MViTs和基于Transformer的模型的可能的泛化潜力。最近的OWOD工作激发了使用基于Transformer的模型[8]和集成目标性[29]以实现强大的OWOD性能。尽管先前的方法尝试使用目标性估计[8, 29],但没有直接将其集成到类别预测本身。与以前的工作不同,我们引入了一种用于概率估计目标性的新方法,并直接将其集成到类别预测本身,从而改善了未知对象的检测。

类不可知的目标检测
类别无关的目标检测(CA-OD)试图在有限数量的已标记对象类别的情况下学习通用的目标性特征。然后,这些通用特征用于检测先前未见过的对象类别。CA-OD方法预计以类别无关的方式定位对象。当前的SOTA目标性检测方法[11, 23]都解决了同样的问题;数据集的标记不密集,因此不能简单地确定一个提议的检测是否错误,如果它不与任何地面真实标签重叠。Saito等人[23]通过引入自定义图像增强方法BackErase来解决了这个问题,该方法将带有注释的对象粘贴在没有对象的背景上。Kim等人[11]探讨了不同损失对学习开放世界提议的影响,并发现将分类替换为定位损失(不对假阳性进行惩罚)可以提高性能。不幸的是,直接集成CA-OD方法在OWOD性能上表现不佳。例如,将Kim等人[11]的基于定位的目标性方法直接集成到ORE中,正如Wu等人[29]所提出的那样,导致未知对象召回率下降了70%。尽管间接地,我们的工作整合了CA-OD的见解,例如不对假阳性进行惩罚的问题。

更多推荐

Linux底层基础知识

一.汇编,C语言,C++,JAVA之间的关系汇编,C语言,C++可以通过不同的编译器,编译成机器码。而java只能由Java虚拟机识别。Java虚拟机可以看成一个操作系统,Java虚拟机是由汇编,C,Linux等编写而成的一个操作系统(面向os)不同的芯片,底层的CISC指令集不同,所以其机器码有区别,因此汇编不能跨平

用了 TCP 协议,就一定不会丢包吗?

表面上我是个技术博主。但没想到今天成了个情感博主。我是没想到有一天,我会通过技术知识,来挽救粉丝即将破碎的感情。掏心窝子的说。这件事情多少是沾点功德无量了。事情是这样的。最近就有个读者加了我的绿皮聊天软件,女生,头像挺好看的,就在我以为她要我拉她进群发成人专升本广告的时候。画风突然不对劲。她说她男朋友也是个程序员,异地

Docker 安装

Docker官网:Docker:AcceleratedContainerApplicationDevelopmentDockerHub官网:https://hub.docker.com/前提说明CentOSDocker安装前提条件目前,CentOS仅发行版本中的内核支持Docker。Docker运行在CentOS7(6

蒙特卡洛树搜索(MCTS)在Python中实现井字游戏策略优化详细教程

1.介绍井字游戏(TicTacToe)是大家都很熟悉的一款策略游戏,两个玩家轮流在3x3的棋盘上放置自己的标记(通常是’X’和’O’),目标是在任意方向上(横、竖、斜)连续三个自己的标记。而蒙特卡洛树搜索(MCTS)则是一种广泛用于复杂策略游戏(例如围棋、象棋等)的算法。在本文中,我们将结合这两者,使用MCTS为井字游

iOS系统下轻松构建自动化数据收集流程

目录python的优势ShortcutsApp介绍如何结合Python与ShortcutAppiOS系统下轻松构建自动化数据收集流程总结在当今的数字化时代,数据已经成为企业成功的关键因素之一。然而,随着业务的发展和数据量的增加,手动收集和分析数据的方式已经不再可行。在iOS系统下,我们可以利用一些工具和技术来轻松构建自

Guava精讲(三)-Caches,同步DB数据到缓存

在开发中,我们经常需要从数据库中读取数据并进行频繁的读取操作。缓存在各种场景中都有运用,例如,当一个值的计算或检索成本很高,而且在某个输入中需要多次使用该值时,就应该考虑使用缓存,因此将数据缓存在内存中可以显著提高应用程序的性能。问题描述假设我们正在开发一个电子商务网站,需要频繁地显示商品信息。商品信息存储在数据库中,

SpringMVC之JSON返回&异常处理机制

json处理统一异常处理1.json处理//pom.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-in

服务器搭建(TCP套接字)-select版(服务端)

一、select头文件#include<sys/select.h>二、select原型intselect(intnfds,fd_set*readfds,fd_set*writefds,fd_set*exceptfds,structtimeval*timeout);select()是一个系统调用函数,用于在多个文件描述符

K8S架构原理

目录一、k8s概述1、什么是k8s?2、特性3、主要功能二、集群架构与组件1.Master组件(1)Kube-apiserver(2)Kube-controller-manager(3)Kube-scheduler调度算法:2.配置存储中心3.Node组件(1)Kubelet(2)Kube-Proxy(3)docker

【SpringMVC】之自定义注解

文章目录一、Java注解1.1简介1.2分类1.2.1JDK基本注解1.2.2JDK元注解1.3自定义注解二、使用自定义注解2.1案例一(获取类与方法上的注解值)2.2案例二(获取类属性上的注解属性值)2.3案例三(获取参数修饰注解对应的属性值)三、Aop自定义注解的应用一、Java注解1.1简介Java注解是附加在代

[论文阅读]Coordinate Attention for Efficient Mobile Network Design

摘要最近关于移动网络设计的研究已经证明了通道注意力(例如,theSqueeze-and-Excitationattention)对于提高模型的性能有显著的效果,但它们通常忽略了位置信息,而位置信息对于生成空间选择性注意图非常重要。在本文中,我们提出了一种新的移动网络注意力机制,将位置信息嵌入到通道注意力中,我们称之为“

热文推荐