计算机视觉与深度学习-图像分割-视觉识别任务02-目标检测-【北邮鲁鹏】

2023-09-20 21:34:17

参考

【计算机视觉】计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记
计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)

目标检测定义

目标检测的目标是确定图像中存在的目标的类别,并在图像中标记出它们的位置,通常使用边界框来表示目标的位置和大小。

单目标检测:分类+定位
在这里插入图片描述

深度学习对目标检测的作用

深度学习通过使用深层神经网络模型,可以从原始像素级别上学习和提取图像特征,从而实现目标检测。
在这里插入图片描述

单目标检测

将定位任务建模为回归问题!
在这里插入图片描述

多任务框架

一个任务是:分类。
另一个任务是:定位。
在这里插入图片描述

多任务损失

网络训练的目标是降低总损失,所以 softmax loss 和 L2 loss 将同时减小,也可以为 softmax loss 和 L2 loss 分别设置一个权重,通过改变权重,调整 softmax loss 和 L2 loss 在总损失中所占的比重。

预训练模型

目标检测中,一般不从头开始训练网络,而是使用ImageNet上预训练的模型。
在这里插入图片描述
一般分三个阶段:

1、分类训练阶段

在这个阶段,通常使用预训练的分类模型(如在ImageNet上预训练的模型)来进行训练。该模型已经在大规模图像分类任务上学习到了丰富的图像特征。然后,将最后的全连接层替换成适应目标检测任务的新的全连接层,并使用目标检测数据集进行训练。这个阶段的目标是学习分类任务所需的特征表示。

2、定位训练阶段

在这个阶段,固定预训练模型的大部分层,并仅仅调整输出层和一些顶层特征层。然后,使用目标检测数据集进行训练,让模型学习如何准确地定位目标。这个阶段的目标是学习目标的位置信息。

3、分类和定位一起训练阶段

在这个阶段,不仅训练分类任务,还同时训练目标的位置信息。在模型中同时使用分类和定位损失函数,并根据这两个任务的权重进行综合训练。这个阶段的目标是综合考虑分类和定位任务,使模型能够准确地检测并定位目标。

姿态估计

姿态估计(Pose Estimation)是计算机视觉中的一个重要任务,旨在从图像或视频中推断出人体、物体或其他目标的姿态信息,包括位置、方向和关节角度等。

单目标检测的思路,还应用于单人体姿态估计,与box coordinates不同的是,在人体上标注关键点,然后通过训练,与标答进行对比。
在这里插入图片描述

  • 目标检测: 首先,使用目标检测算法来检测图像中的人体目标。目标检测算法可以是传统的方法(如基于特征的方法)或深度学习方法(如基于卷积神经网络的方法)。检测到的人体目标将作为后续姿态估计的输入。

  • 关键点定位: 对于每个检测到的人体目标,需要进一步定位其关键点,例如人体姿态估计中的关节点。可以使用关键点检测算法(如姿态估计算法或关键点检测算法)来定位人体关键点。这些算法可以是传统的机器学习方法,也可以是基于深度学习的方法。

  • 姿态估计: 一旦获得了人体关键点的位置,可以使用姿态估计算法来推断人体的姿态信息,如人体的位置、旋转和关节角度等。姿态估计算法可以基于几何模型、优化方法或深度学习方法。根据应用需求,可以选择合适的姿态表示形式,如关节角度、骨架模型或三维姿态等。

  • 后处理与应用: 最后,可以对估计的姿态结果进行后处理,如滤波或平滑操作,以提高估计的准确性和稳定性。得到最终的姿态估计结果后,可以将其应用于各种应用领域,如动作识别、运动分析、虚拟现实、增强现实等。

多目标检测

问题

困境:每张图像期望输出的维度都不一样。

在这里插入图片描述
神经网络的标答是预先建立好的,因为多目标检测中目标数量并不确定,输出的维度不确定,就无法建立Correct box标答,如果使用单目标检测的训练方法,无法建立多目标检测的表达,训练将不能进行。

滑动窗口(Sliding Window)

在图像上以不同的尺度和位置滑动固定大小的窗口,然后在每个窗口上应用分类器或特征提取方法来判断窗口内是否存在目标。滑动窗口方法可以用于检测不同尺寸的目标,并且可以通过滑动步长控制检测的精度和速度。

将图像中所有可能的区域都给到分类器进行分类,只留下能正确分类的窗口。
在这里插入图片描述
困境:CNN需要对图像中所有可能的区域(不同位置、尺寸、长宽比)进行分类,计算量巨大!

滑动窗口缺点

穷举图像中成千上万的区域进行分类,对于神经网络,计算量很大。

针对这个问题,提出了一种新的思想,先从图像中产生一些候选区域再进行分类,而不是穷举图像中所有区域。例如:selective search

AdaBoost(Adaptive Boosting)

AdaBoost是一个非常快的分类器,可以对图像上的区域进行穷举后分类。

参考

AdaBoost算法超详细讲解

AdaBoost 是一种集成学习算法,用于提高分类器的性能。它通过迭代训练一系列弱分类器(如决策树、支持向量机等),每次迭代都根据前一轮分类结果对样本进行调整,使得难以分类的样本获得更高的权重,从而加强对这些样本的分类能力。最终,通过组合多个弱分类器,AdaBoost 可以产生一个强大的分类器。

区域建议 selective search 思想

针对穷举图像所有区域神经网络分类计算量大这个问题,提出了一种新的思想,先从图像中产生一些候选区域再进行分类,而不是穷举图像中所有区域。例如:selective search。
在这里插入图片描述
选择性搜索(Selective Search):选择性搜索是一种经典的区域建议算法。它基于图像的颜色、纹理、边缘等信息,在不同尺度和层次上进行区域合并和分割,生成一系列候选区域。

selective search思想是在R-CNN的论文中提出的。

慢速R-CNN

基于区域的目标检测算法。

慢速R-CNN思路

1 利用区域建议产生感兴趣的区域。(存入硬盘)
2 对区域进行缩放。
3 将图像区域送入卷积网络进行特征提取。(存入硬盘)
4 使用支持向量机对区域进行分类,同时进行边界框回归(修正学习)。
在这里插入图片描述

边界框回归(Bbox reg)

区域建议生成的区域,可能有损失,效果不好,进行边界框回归,就是为了修正区域建议生成的区域与真实区域的偏差。

边框回归(Bounding Box Regression)详解

在这里插入图片描述
对于上图,绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调这个窗口的。

慢速R-CNN缺点

问题:计算效率低下,每张图像大约有2k个区域需要卷积网络进行特征提取,重叠区域反复计算。

Fast R-CNN

在Fast R-CNN中,首先通过卷积神经网络(CNN)提取整个图像的特征图。然后,针对每个感兴趣区域(Region of Interest,RoI),通过RoI池化层将其映射为固定大小的特征图。这样可以避免在每个RoI上进行独立的卷积操作,从而大大减少了计算量。

接下来,将RoI映射后的特征图输入到全连接层中,进行目标分类和边界框回归。分类部分使用softmax函数对RoI进行多类别分类,而边界框回归则用于预测目标的位置和大小。
在这里插入图片描述
Fast R-CNN的训练是端到端的,可以通过反向传播同时优化特征提取网络和分类/回归网络。这种端到端的训练方式比R-CNN中的多阶段训练更加高效。

改进一:先提取特征后区域建议

如果先进行区域建议后进行特征提取,计算量比较大。因此先对整个图片进行卷积提取特征后,在特征图上进行区域扣取。

改进二:全连接神经网络
改进三:裁剪+缩放特征(RoI Pool)
为什么需要RoI Pool?

先来看一个问题:对于传统的CNN(如AlexNet和VGG),当网络训练好后输入的图像尺寸必须是固定值,同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定,这个问题就变得比较麻烦。有2种解决办法:

  1. 从图像中crop一部分传入网络。
  2. 将图像warp成需要的大小后传入网络。

在这里插入图片描述
两种办法的示意图如图,可以看到无论采取那种办法都不好,要么crop后破坏了图像的完整结构,要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法:对positive anchors进行bounding box regression,那么这样获得的proposals也是大小形状各不相同,即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来。

通过RoI Pooling,即使大小不同的proposal输出结果都是固定大小,实现了固定长度输出。

参考:一文读懂Faster RCNN

区域裁剪

在这里插入图片描述

Rol Pool

区域顶点规整到网格交点上(有偏移)

在这里插入图片描述
然后进行处理
在这里插入图片描述
Rol Pool处理前不同的区域特征的空间尺寸可能不一致,但是处理后的所有区域特征尺寸都是一样的。

问题: 处理后的区域特征会有轻微的对不齐!

Rol Align

区域顶点不规整到网格交点上(无偏移)
在每个区域中选择几个关键点,关键点个数是可自定义的,是超参数。

在这里插入图片描述
RoI Align 解决了传统 RoI Pooling 中的精度损失和空间错位问题。它通过使用双线性插值的方式,精确地计算感兴趣区域内每个位置的特征值。具体而言,RoI Align 将感兴趣区域划分为更细的小格,然后在每个小格内使用双线性插值计算对应位置的特征值。最后,这些特征值通过平均池化得到感兴趣区域的特征表示。

在这里插入图片描述
双线性插值: 在每个小格内使用双线性插值来计算对应位置的特征值。双线性插值利用小格内的四个相邻像素的特征值,通过加权平均来估计目标位置的特征值。
在这里插入图片描述
双线性插值通过使用周围四个最近的数据点来估计目标位置的值。假设我们要在一个二维网格上进行插值,其中四个最近的数据点的坐标为 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2),目标位置的坐标为 (x, y)。双线性插值的计算步骤如下:

  • 计算水平方向上的插值:

a. 在 x 轴上,对数据点 (x1, y1) 和 (x2, y1) 进行线性插值,得到两个插值结果:
f 1 = f ( x 1 ) + ( x − x 1 ) ∗ ( f ( x 2 ) − f ( x 1 ) ) / ( x 2 − x 1 ) f_1 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f1=f(x1)+(xx1)(f(x2)f(x1))/(x2x1)
f 2 = f ( x 1 ) + ( x − x 1 ) ∗ ( f ( x 2 ) − f ( x 1 ) ) / ( x 2 − x 1 ) f_2 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f2=f(x1)+(xx1)(f(x2)f(x1))/(x2x1)
b. 在 x 轴上,对数据点 (x1, y2) 和 (x2, y2) 进行线性插值,得到两个插值结果:
f 3 = f ( x 1 ) + ( x − x 1 ) ∗ ( f ( x 2 ) − f ( x 1 ) ) / ( x 2 − x 1 ) f_3 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f3=f(x1)+(xx1)(f(x2)f(x1))/(x2x1)
f 4 = f ( x 1 ) + ( x − x 1 ) ∗ ( f ( x 2 ) − f ( x 1 ) ) / ( x 2 − x 1 ) f_4 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f4=f(x1)+(xx1)(f(x2)f(x1))/(x2x1)

  • 计算垂直方向上的插值:

a. 在 y 轴上,对插值结果 f1 和 f2 进行线性插值,得到结果: f 12 = f 1 + ( y − y 1 ) ∗ ( f 2 − f 1 ) / ( y 2 − y 1 ) f_{12} = f_1 + (y - y_1) * (f_2 - f_1) / (y_2 - y_1) f12=f1+(yy1)(f2f1)/(y2y1)
b. 在 y 轴上,对插值结果 f3 和 f4 进行线性插值,得到结果: f 34 = f 3 + ( y − y 1 ) ∗ ( f 4 − f 3 ) / ( y 2 − y 1 ) f_{34} = f_3 + (y - y_1) * (f_4 - f_3) / (y_2 - y_1) f34=f3+(yy1)(f4f3)/(y2y1)

最终的插值结果为在垂直方向上插值得到的 f 12 f_{12} f12 f 34 f_{34} f34的线性插值结果: f = f 12 + ( y − y 1 ) ∗ ( f 34 − f 12 ) / ( y 2 − y 1 ) f = f_{12} + (y - y_1) * (f_{34} - f_{12}) / (y_2 - y_1) f=f12+(yy1)(f34f12)/(y2y1)

Fast R-CNN的问题

selective search 区域建议 耗时过高,几乎等于单张图片的检测时间。
在这里插入图片描述

Fast R-CNN vs 慢速R-CNN

在这里插入图片描述

Fast R-CNN 相对于慢速 R-CNN 有几个改进点:

  • 特征共享:Fast R-CNN 在整个图像上只进行一次卷积运算,而慢速 R-CNN 需要为每个候选区域分别进行卷积运算。这意味着 Fast R-CNN 可以共享卷积层的计算,从而更高效地提取特征。
  • 单次前向传播:Fast R-CNN 可以通过单次前向传播同时计算所有候选区域的特征和分类结果,而慢速 R-CNN 需要为每个候选区域独立地进行前向传播,效率较低。
  • 损失函数:Fast R-CNN 引入了多任务损失函数,同时优化目标分类和边界框回归,而慢速 R-CNN 仅使用分类损失函数。

Faster R-CNN

参考:一文读懂Faster RCNN
在结构上,在中间特征层后加入区域建议网络RPN(Region Proposal Network) 产生候选区域,其他部分保持与Fast R-CNN一致,即扣取每个候选区域的特征,然后对其进行分类。
在这里插入图片描述

RPN(Region Proposal Network)

在目标检测任务中,RPN的作用是在输入图像上提出可能包含目标的候选框(或称为候选区域)。RPN是一个小型的神经网络,它以滑动窗口的方式在特征图上滑动,并为每个位置生成多个不同尺度和长宽比的候选框。

RPN的输入是经过卷积神经网络(如VGG、ResNet等)提取的特征图。特征图具有丰富的语义信息,可以帮助RPN更好地定位目标。RPN在特征图上应用一个小型的卷积滑动窗口,并对每个窗口位置生成多个anchors。

对于每个anchor,RPN会通过卷积和全连接层进行处理,并输出两个值:
1)表示该anchor是否包含目标的概率(通常是二分类问题);
2)对应目标边界框的修正信息,用于调整候选框的位置和形状。

通过这个过程,RPN能够生成大量的候选框,并为每个候选框提供目标概率和边界框的修正信息。然后,根据这些概率和修正信息,可以对候选框进行筛选和精细调整,选出最具有潜力的候选区域。

RPN所生成的候选区域随后被传递给后续的分类器和边界框回归器,进行目标分类和精确定位。

区域建议(Region Proposal Network)

实际使用中,对于每个特征图上的每个位置,我们通常会采用k个不同尺寸和分辨率的锚点区域(anchor boxes)
在这里插入图片描述

四种损失联合训练:
• RPN分类损失(目标/非目标)
• RPN边界框坐标回归损失
• 候选区域分类损失
• 最终边界框坐标回归损失

运行分为两个阶段

在这里插入图片描述

第一阶段:候选区域生成

在第一阶段,Faster R-CNN使用Region Proposal Network (RPN) 来生成候选区域。

RPN通过在输入图像上滑动窗口,并在不同位置和尺度上生成一系列的候选框(也称为锚框或anchors),这些候选框可能包含目标。对于每个候选框,RPN预测其包含目标的概率以及对应目标边界框的修正信息。

第二阶段:目标分类和边界框回归

在第二阶段,Faster R-CNN使用先前生成的候选区域作为输入,对这些候选区域进行目标分类和边界框回归。通常,这个阶段包括一个用于特征提取的卷积神经网络(如VGG、ResNet等),以及用于目标分类和边界框回归的全连接层。这些层将从候选区域中提取的特征映射与目标类别进行关联,并对边界框进行微调,以更准确地定位目标。

Faster R-CNN速度

在这里插入图片描述

目标检测: 影响精度的因素 …

在这里插入图片描述

更多推荐

函数扩展之——内存函数

前言:小伙伴们又见面啦。本篇文章,我们将讲解C语言中比较重要且常用的内存函数,并尝试模拟实现它们的功能。让我们一起来学习叭。目录一.什么是内存函数二.内存函数有哪些1.memcpy(1)库函数memcpy(2)模拟实现memcpy2.memmove(1)库函数memmove(2)模拟实现memmove3.memset4

【大数据】HDFS 的常用命令

HDFS的常用命令1.操作命令1.1创建文件夹1.2列出指定的文件和目录1.3新建文件1.4上传文件1.5将本地文件移动到HDFS1.6下载文件1.7查看文件1.8追写文件1.9删除目录或者文件1.10显示占用的磁盘空间大小1.11HDFS中的文件复制1.12HDFS中的文件移动2.管理命令2.1报告文件系统的基本信息

ElasticSearch(二)

1.DSL查询文档elasticsearch的查询依然是基于JSON风格的DSL来实现的。1.1.DSL查询分类Elasticsearch提供了基于JSON的DSL(DomainSpecificLanguage)来定义查询。常见的查询类型包括:查询所有:查询出所有数据,一般测试用。例如:match_all全文检索(fu

高教杯数学建模A题程序设计要点与思路

2023年是我最后一次参加高教杯大学生数学建模竞赛以后不会再参加了(大四参加意义不太,研究生有研究生的数学建模大赛)很遗憾由于各种原因我们没有能够完成赛题2022年美赛2022年MathorCup2022年国赛2022亚太杯2023年美赛2023年国赛我和我的朋友一共参加了6次比赛6次比赛我交到了很好的朋友然鹅成绩比较

Java 8 新特性解读及应用实践

Java8新特性解读及应用实践一、简介二、Lambda表达式三、流式编程四、日期/时间API1.概述2.LocalDate、LocalTime、LocalDateTime等类的使用3.格式化与解析五、重复注解和类型注解1.概念与作用2.重复注解实例3.类型注解实例六、小结回顾一、简介Java8带来了众多重大改进和新特性

【网络协议】Http-上

Http请求结构:结构图1:实验解析请求报文:1.在Edge浏览器上输入ip地址+端口号+文件资源,也就是下图中的120.XX.139.29:8888/A/B/c.html2.我的程序接收到了一个没有有效载荷的http请求(呼应上面的结构图1),如下GET/1/2/3.htmlHTTP/1.1//请求行(请求方法+请求

关于路由懒加载

路由懒加载是一种优化技术,它是可以延迟加载应用程序的某些模块或者组件,而不是在初始加载时一次性加载所有内容,这样可以减少初始加载的文件体积,提高应用程序的加载速度1.懒加载是在什么时候加载路由懒加载是在用户访问相应的路由时才进行加载。它延迟加载路由组件,使得在初始加载时只加载必要的代码,而将其他路由的代码推迟到需要时再

实验篇——根据群体经纬度提取环境数据(先导)

实验篇——根据群体经纬度提取环境数据(先导)文章目录前言一、获取数据文件1.1.经纬度文件1.2.环境数据的tif文件二、R语言代码实现三、环境文件介绍3.1.bio3.2.prec3.3.elev3.4.tmin3.5.tmax3.6.vapr13.7.tavg3.8.srad3.9.wind四、后续总结前言首先得到

LLM - 大模型技术报告与训练细节 By Baichuan2

目录一.引言二.Introduction-LLM相关进展1.模型参数越大,模型能力越强2.开源模型促进LLM领域快速发展3.开源模型集中在英文领域,其他语言能力有限4.训练数据2.6亿Token遥遥领先5.优化人类指令发布对应Chat模型6.公布了训练过程中的CKPT促进领域研究发展三.Pre-training-Bai

Vue路由与nodejs环境搭建

目录一、Vue路由1.1SPA简介1.2路由简介1.3路由实现思路1.3.1引入vue-router的js依赖1.3.2定义组件1.3.3定义路由1.3.4组装路由器1.3.5将路由挂载根实例1.3.6定义触发路由的按钮1.3.7定义锚点1.4示例二、nodejs环境搭建2.1nodejs简介2.2nodejs下载2.

权威敏捷产品经理(CSPO)企业培训

课程简介优秀的产品通常包括以下三个特征:第一:能够抓住用户痛点,帮助用户解决问题;第二:容易使用,极致的用户体验;第三:质量好、性能稳定。这是一个两天的面向产品经理的实训课程,课程旨在帮助学员掌握按照敏捷和互联网思维进行产品研发,打造用户喜爱的产品的思路及实践。课程内容涵盖了产品思维、用户需求挖掘、痛点分析,价值驱动、

热文推荐