基于LiDAR的对象检测中的课程化对象操作

2023-09-20 18:07:27

论文标题:Curricular Object Manipulation in LiDAR-based Object Detection

20f158b7ae52bf9f688e778b9b48dc29.png

代码:https://github.com/ZZY816/COM

e4160f0b90dafd0ecc67aa499af96567.png

导读

本文探讨了LiDAR传感器在自动驾驶等安全关键应用中的3D物体检测任务,并引入了一种创新的训练框架,被称为"curricular object manipulation (COM)",以解决LiDAR数据的不均匀性、无序性和稀疏性等挑战。COM框架是首次在传统的LiDAR-based 3D物体检测任务中探索课程学习(curriculum learning)潜力的工作。大量的实验和消融研究揭示了提出的框架的优越性和通用性。

本文贡献

相关工作

基于 LiDAR 的 3D 对象检测

Range view based solutions:基于2D范围视图的紧凑表示形式,具有高计算效率,但通常由于2D-3D维度差异而具有较差的检测性能。这些方法的计算效率高,但通常在检测性能上表现不佳。

point-based detectors:这些方法直接从原始点云中提取特征,因此能够实现令人满意的性能,但通常由于在3D欧几里得空间中进行半径搜索或最近邻查询而产生较高的计算成本。这些方法的性能较好,但计算成本较高。

voxel-based detectors:首先将不均匀的点云转换为规则的2D柱状体或3D体素,并使用卷积进行后续的高效处理。这种方法的代表包括VoxelNet和PointPillars等,它们在效率和效用之间取得了很好的平衡,因此受到了研究社区的广泛关注。在本文的实验中,作者主要关注了基于体素的方法。

点云中的数据增强

由于大规模标注点云数据的成本较高,公共LiDAR数据集通常比图像数据集要小得多,例如KITTI数据集中有15K帧,而MSCOCO数据集中有328K张图像。

因此,对于LiDAR物体检测模型的性能和泛化能力来说,有效的数据增强策略至关重要。除了简单的几何变形,例如随机旋转、随机翻转和平移之外,LiDAR任务通常使用地面真实标签的增强策略来减轻点云中的稀疏问题。

在训练之前,将带有相应点云的地面真实对象首先收集到数据库中。在训练过程中,从数据库中随机选择的附加地面真实对象被连接到当前训练点云中以补充监督。这种策略被称为GT-Aug,在当前文献和开源工具中广泛使用。因此,本文的实验主要集中在最有效的GT-Aug策略上。

Curriculum Learning

课程学习通过逐渐引入更难的数据样本来改善模型性能和泛化能力。虽然课程学习在某些分类任务中已经证明了其有效性,但在目标检测任务中,尤其是在LiDAR 3D检测中,其应用仍然相对未开发。一些先前工作提出了不同的方法来衡量对象的难度,如梯度更新的难度值或使用损失值作为难度指标。本文采用了损失值作为难度的指标,并提出了一种课程学习策略,用于点云中的GT-Aug数据增强。

本文方法

020e271f2142daa845b75e5f1b8c9f07.png

所提出的COM框架主要由COMAug和COMLoss组成。

COMLoss

难度标准(Difficulty Criterion):COMLoss使用预测的分类分数作为衡量对象难度的指标。这些分类分数通常是模型对每个感兴趣对象的置信度估计。

尽管使用分类分数作为难度标准是合理的,但作者指出,分类分数分布与对象难度分布之间仍然存在统计差异。这意味着,分类分数不能完全准确地反映对象的难度。因此,为了缓解这些差异,作者引入了自适应阈值τ。

COMLoss引入了一个自适应阈值τ,自适应阈值τ的目的是缓解分类分数分布与对象难度分布之间的统计差异,自适应阈值τ的计算使用了指数移动平均的方法。τ的初始值为0,通过以下公式进行更新::

dbb5f9d73f3f782478f6048dce26b4e3.png

难度自适应损失(Difficulty-adaptive Loss):COMLoss的核心思想是使用自适应权重函数w,根据对象的相对难度s˜来动态调整训练中的焦点。这个权重函数具有Sigmoid形状,它的形状由参数β控制,并且随着训练的进行而变化。在训练的早期阶段,易处理的对象会被强调,而随着训练的进行,更难处理的对象会吸引更多的注意力。

自适应加权函数w:

c09d943b88bfc6506bbf072699c2a3d0.png

我们注意到公式(4)中引入了一个参数tr,称为临界点,它决定了何时从强调易样本转向强调难样本。在时期t < tr之前,易样本受到强调,而在时期t > tr之后,难样本受到强调。这个参数的选择对COMLoss的性能影响很大。

给定加权函数w,所提出的COMLoss公式为:

2756bb28489aa958617f873716267dd5.png
COMAug

对象聚类(Object Clustering):首先,对地面真实对象进行聚类,将具有相似属性的对象分配到同一组中。聚类因素包括对象与LiDAR传感器的距离、边界框的大小、边界框方向与盒子中心方位之间的相对角度以及观测区域占整个边界框的比率。图4显示了我们实验的聚类结果的可视化

4df935ba4128ca872bbc22e500255534.png

组级别难度分数更新(Group-level Score Update):将聚类后的地面真实对象分成多个组,每个组都有一个难度分数。在每个训练时期结束时,将每个组的难度分数更新为该时期内所有样本的平均分数,以减少难度分数的过时和不稳定性。

难度自适应采样(Difficulty-adaptive Sampling):设计了一个难度自适应的采样器,该采样器根据对象的难度分数和训练阶段自适应地选择对象进行数据增强。采样概率根据对象的难度分数和µt值(µt在训练阶段中变化,公式(6))进行自适应调整,以确保更难的对象具有更高的被选择概率:

7ebe625b73a7b11c1fab95603075f257.png

采样器还考虑了组的大小以解决对象数量不平衡的问题,最后,选择组g的概率计算为:

b282f56b7ff16f87e97e0a6877aedab7.png

实验

实验结果

作者所提出的COM框架在三种流行的LiDAR-based 3D物体检测器(SECOND、PointPillars和CenterPoint)上的有效性和通用性,表1和表2展示了在行人和车辆类别上的结果。

6711023118d1fafbb9a88ab90933115c.png
dbcdad1981eeeb0f3c0368303cd5b552.png

COMLoss的参数敏感性:

a97a1f7dc3b26d9df627b0adc6df6fa1.png
1f571f236b4599eb805a3f57f3af4124.png
b228fa0875e64028184bedd2f18aed21.png

COMAug 根据距离(Dist)、尺寸(Size)、角度(Angle)和占用比率(Occup)等四个因素对对象进行聚类的效果:

7d7471af909b5c9cb00a6cf1d2bb0bef.png

COMAug 采样概率的可视化:

002d232b10b0cbcfc5315df400810d46.png

结论

本文探讨了在LiDAR-based物体检测中应用课程学习的潜力,提出了一种新颖 COM 框架。作者关注了检测器中的损失设计和GT-Aug中的采样策略,并相应引入了COMLoss和COMAug模块。大规模基准测试以及消融研究验证了我们方法的有效性。

局限性

  • 我们的难度标准仅依赖于分类损失,而忽略了回归难度以提高效率。此外,基于损失的标准受训练噪声和滞后效应的影响,因此可能无法精确地反映困难程度。设计更准确的标准是一个有前景的方向。

  • 我们根据四个经验验证的启发式方法将对象分组。对于更合适的分组策略,还需要更多的努力。

  • 我们将工作局限在具有GT-Aug的LiDAR-based物体检测器中。这项工作可以扩展到其他LiDAR相关任务,如多模态3D物体检测和点云分割等。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

9d30e0b22a12dd2c53adc4aeb177b2d0.jpeg

更多推荐

如何延迟Fragment的导航过渡

目录前言postponeEnterTransitionstartPostponedEnterTransitionexecutePendingTransactions总结前言做应用提高用户体验是很关键的,对于用户体验来说有一件事是不能回避的,就是页面切换的过渡动画。因为后一个页面可能会加载数据,所以切换时后一个页面是空白

npm发布vue3自定义组件库--方法二

npm发布vue3自定义组件库创建项目vuecreatetest-ui自定义组件创建自定义组件,组件名称根据你的需求来,最好一个组件一个文件夹,下图是我的示例。src/components组件和你写页面一样,所谓组件就是方便实用,不用重复搬动页面到不同的项目,可以直接install到你本地的项目,下图是一个组件示例。编

【python】系列之item.taobao 获取商品详情API接口调用

item.taobao获取商品详情API接口调用API从技术角度来说就是应用程序编程接口。通过API我们可以直接获取一些我们需要的数据结果,而不需要自己编写相应的程序,有点类似模块化调用函数,大大加快了我们编程的速度。当然这个数据传输是需要网络的,所以一般API的形式看起来有点像网页链接。通俗来说API是什么呢?就是一

网络安全(红客)自学

前言1.这是一条坚持的道路,三分钟的热情可以放弃往下看了.2.多练多想,不要离开了教程什么都不会了.最好看完教程自己独立完成技术方面的开发.3.有时多google,baidu,我们往往都遇不到好心的大神,谁会无聊天天给你做解答.4.遇到实在搞不懂的,可以先放放,以后再来解决.一、什么是网络安全网络安全可以基于攻击和防御

【C++】内联函数 ④ ( C++ 编译优化 - 没有 inline 关键字修饰的函数也可能被内联 | C++ 编译器内联限制 | 内联失败的几种情况 )

文章目录一、C++编译优化-没有inline关键字修饰的函数也可能被内联1、函数内联的不确定性2、C++编译器的内联优化3、内联优化细节二、C++编译器内联限制1、内联失败的几种情况2、内联失败的本质分析一、C++编译优化-没有inline关键字修饰的函数也可能被内联1、函数内联的不确定性现在的C++编译器能够进行编译

6.3 应用动态内存补丁

动态内存补丁可以理解为在程序运行时动态地修改程序的内存,在某些时候某些应用程序会带壳运行,而此类程序的机器码只有在内存中被展开时才可以被修改,而想要修改此类应用程序动态补丁将是一个不错的选择,动态补丁的原理是通过CreateProcess函数传递CREATE_SUSPENDED将程序运行起来并暂停,此时程序会在内存中被

【LeetCode题目详解】第十章 单调栈part03 84.柱状图中最大的矩形(day60补)

本文章代码以c++为例!一、力扣第84题:柱状图中最大的矩形题目:给定n个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为1。求在该柱状图中,能够勾勒出来的矩形的最大面积。示例1:输入:heights=[2,1,5,6,2,3]输出:10解释:最大的矩形为图中红色区域,面积为10示例2:输入:hei

前端自定义导出PPT

1、背景前端导出PPT,刚接触这个需求,还是比较懵逼,然后就在网上查找资料,最终确认是可行的;这个需求也是合理的,我们做了一个可视化数据报表,报表导出成PPT,将在线报表转成文档类型留存;2、技术方案实现这种复杂的功能,都得依赖前辈匠人,还好有一个比较完善好用的库:pptxgenjs只有英文文档:QuickStartG

代码大全阅读随笔(七)

循环控制循环控制会出现什么样的错误,任何一种答案都可以归结到下面所说的问题之一:忽略或者错误的对循环执行初始化,忽略了对累加变量或者其他与循环有关变量执行初始化,不正确的嵌套,不正确的循环终止,忽略或者错误的增加了循环变量的值,以及用不正确的循环下标访问数组元素等等。要点:循环很复杂。保持循环简单将有助于别人阅读你的代

Linux下的buff/cache

目录一、buff/cache二、buff/cache与内存管理三、buff/cache对系统性能的影响四、优化buff/cache1、调整vm.dirty_ratio和vm.dirty_background_ratio2、配置vm.swappiness3、配置vm.vfs_cache_pressure五、释放buff/

5G相关信息

5G(第五代移动通信技术)是一种高级的通信技术,包括了多种算法和协议,用于实现高速、低延迟、可靠的无线通信。要实现5G算法,需要深入了解各种子系统和协议的工作原理,并根据需要编写相应的代码。以下是一些与5G相关的核心算法和技术,以及简要的描述:1.**OFDM(OrthogonalFrequencyDivisionMu

热文推荐