做理财网站 程序员 违法吗,前端容易被裁还是后端,榆林建设网站,seo专员工作容易学吗在《动手学无人驾驶#xff08;4#xff09;#xff1a;基于激光雷达点云数据3D目标检测》一文中介绍了3D目标检测网络PointRCNN。今天介绍该作者新提出的3D检测模型#xff1a;PVRCNN#xff0c;论文已收录于CVPR2020。 作者个人主页为#xff1a;https://sshaoshuai.gi… 在《动手学无人驾驶4基于激光雷达点云数据3D目标检测》一文中介绍了3D目标检测网络PointRCNN。今天介绍该作者新提出的3D检测模型PVRCNN论文已收录于CVPR2020。 作者个人主页为https://sshaoshuai.github.io/。 知乎ID为https://www.zhihu.com/people/yilu-kuang-shuai。 PVRCNN论文链接为https://arxiv.org/pdf/1912.13192.pdf。 代码链接为https://github.com/open-mmlab/OpenPCDet。 在介绍论文前大家可以先看看作者此前分享的3D目标检测报告https://www.bilibili.com/video/av89811975?zw 基于点云场景的三维物体检测算法及应用文章目录1. PVRCNN算法1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement2. Experiments1. PVRCNN算法
在目前的点云目标检测中3D voxel CNNs可以生成高质量的proposals而基于PointNet的方法由于其感受野灵活可以捕获更准确的目标位置信息。
在本文中作者对这两种检测方法进行集成首先使用3D voxel CNNs作为主干网来生成高质量的proposalas然后在每一个proposal中为了充分有效池化点云特征作者提出了两种新的池化方式Voxel-to-keypoint scene encoding与keypoint-to-grid ROI feature abstraction。通过这两种池化方法能够有效提高预测可信度以及对目标位置进行优化。
1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
这部分相对比较好理解使用3D CNNs作为主干网将输入的点云划分为一个个voxel。作者总共进行了4次下采样最后投影到鸟瞰图上生成proposal。从结果可以看出这种生成proposal的方式有着更高的召回率。 1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
PointNet中提出的set abstraction operation显示出了强大的特征提取能力能够对任意空间尺寸的点云集进行特征抽取。受此启发作者提出了将多个voxels的特征聚合到keypoints上。
首先是Keypoints Sampling和PointRCNN一样作者使用最远点采样法FPS在所有点云中选取出nnn个关键点在KITTI数据中n2048n2048n2048。然后是Voxel Set Abstraction ModuleVSA如下图所示作者在每一次进行下采样时都进行了一次VSA操作将不同尺度范围的voxel特征汇聚到keypoints。 具体地操作如下其中lkl_klk表示第kkk层网络pip_ipi表示为keypointvj(lk)v_{j}^{(l_k)}vj(lk)表示为第kkk层网络中voxel坐标fj(lk)f_{j}^{(l_k)}fj(lk)表示为voxel队以应地特征向量。这样就组成每个keypoint邻域集SilkS_{i}^{l_k}Silk包括voxel特征向量及voxel与keypoint之间地相对位置。 然后是对SilkS_{i}^{l_k}Silk进行一次maxmaxmax操作。具体操作如下其中MMM表示在集合SilkS_{i}^{l_k}Silk中最多选取出TkT_kTk个voxelsGGG表示进行多层感知机操作最外层是maxmaxmax操作。最终生成地每个keypoint特征为fipvkf_{i}^{{pv}_k}fipvk。 对每一层3D CNNs网络都进行上述VSA操作这样就得到了keypoint结合后地特征fi(pv)f_{i}^{{(pv)}}fi(pv)。
现在将VSA模块进行扩展我们对原始点云进行公示2的操作得到特征firawf_{i}^{raw}firaw。对鸟瞰图上的keypoint进行二项插值得到特征fi(bev)f_{i}^{(bev)}fi(bev)最终关键点keypointkeypointkeypoint特征为fi(p)f_{i}^{(p)}fi(p) 这里作者还设计了一个predicted keypoint weighting模块如下图所示。在训练时可以根据annotation来判断选取地关键点是不是属于前景点这里训练使用地损失函数为focal loss。 1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
经过上面的处理得到了一组含有多尺度语义特征的关键点集keypoints with multi-scale semantic features 。 为了进一步优化作者在这里提出了keypoint-to-grid RoI feature abstraction如下图4所示。 首先在每一个候选方案proposal中统一采样6×6×66\times6\times66×6×6个gird points。这里的采样公式如下其中gig_igi表示为grid pointspjp_jpj表示为keypointf~j(p)\widetilde f^{(p)}_{j}fj(p)表示为关键点特征。 然后使用一个PointNet-block得到grid point特征具体方法如下 最后通过两层MLP网络得到256维的特征向量。 2. Experiments
下图是论文作者在KITTI数据集提交的结果截至2020年11月22日目前排在第15位是榜上唯一开源的方案。
总的来说作者提出的voxel-based和PointNet-based方法还是很创新的值得借鉴。