Deep Learning for 3D Point Clouds: A Survey为国防科技大学发布的综述文章,这里只翻译第二章。
下载链接:https://arxiv.org/abs/1912.12033;
仓库链接:https://github.com/QingyongHu/SoTA-Point-Cloud
这些方法将3D点云投影到不同的表示形式(例如多视图,体积表示)中,用于特征学习和形状分类。
2.1.1多视图表示
这些方法首先将3D对象投影到多个视图中,并提取相应的按视图方向的特征,然后融合这些特征以进行准确的对象识别。 如何将多个基于视图的特征聚合到一个可区分的全局表示中是一个关键挑战。 MVCNN [15]是一项开创性的工作,它只是将多视图特征最大池化为一个全局描述符。 但是,最大池化只能保留特定视图中的最大元素,会导致信息丢失。 MHBN [16]通过协调双线性池化整合了局部卷积特征,以生成紧凑的全局描述符。 杨等[17]首先利用关系网络来利用一组视图之间的相互关系(例如,区域-区域关系和视图-视图关系),然后将这些视图进行聚合以获得具有区别性的3D对象表示。 另外,还提出了其他几种方法[18],[19],[20],[21]以提高识别精度。
2.1.2体素表示
早期方法通常在3D点云的体素表示基础上应用3D卷积神经网络(CNN)。 Daniel等[22]介绍了一种称为VoxNet的体积占用网络,以实现可靠的3D对象识别。 Wu等[6]提出了一种基于卷积深度信念的3D ShapeNet,以学习各种3D形状中点的分布。 3D形状通常由体素网格上二进制变量的概率分布表示。尽管已经实现了令人鼓舞的性能,但是这些方法无法很好地应用到密集的3D数据,因为计算和内存占用量会随着分辨率的增加而三次增长。为此,引入了分层而紧凑的图结构(例如八叉树)以减少这些方法的计算和存储成本。 OctNet [23]首先使用混合网格八叉树结构对点云进行分层划分,该结构代表沿规则网格具有几个浅八叉树的场景。使用位串表示对octree的结构进行有效编码,并通过简单的算法对每个体素的特征向量进行索引。 Wang等[24]提出了一种基于Octree的CNN用于3D形状分类。在最细的叶子八分位数中采样的3D模型的平均法线向量被馈送到网络中,并将3D-CNN应用于3D形状表面所占据的八分位数。与基于密集输入网格的基准网络相比,OctNet对于高分辨率点云所需的内存和运行时间要少得多。 Le等[25]提出了一种称为PointGrid的混合网络,该网络集成了点和网格表示,以进行有效的点云处理。在每个嵌入的体素网格单元中采样恒定数量的点,这使网络可以使用3D卷积提取几何细节。
根据用于每个点的特征学习的网络体系结构,可以将这一类的方法分为逐点MLP,基于卷积,基于图,基于数据索引的网络和其他典型网络。
2.2.1逐点MLP网络
2.2.2基于卷积的网络
与在2D网格结构(例如图像)上定义的内核相比,由于点云的不规则性,难以为3D点云设计卷积内核。 根据卷积内核的类型,当前的3D卷积网络可以分为连续卷积网络和离散卷积网络,如图4所示。
2.2.3基于图的网络
2.2.4基于数据索引的网络
这些网络是根据不同的数据索引结构(例如octree和kd-tree)构建的。在这些方法中,点特征是沿着树从叶节点到根节点分层学习的。 Lei等[50]提出了一种使用球面卷积核的八叉树引导的CNN。网络的每一层都对应于八叉树的一层,并且在每一层都应用了球形卷积核。当前层中神经元的值确定为上一层中所有相关子节点的平均值。与基于octree的OctNet [23]不同,Kd-Net [78]是使用多个K-d树构建的,每个树在每次迭代时具有不同的分割方向。按照自下而上的方法,使用MLP根据非子节点的子代表示来计算非子节点的表示。根节点的特征(描述整个点云)最终被馈送到全连接层以预测分类得分。注意,Kd-Net根据节点的拆分类型在每个级别共享参数。3DContextNet [79]使用标准的平衡K-d树来实现特征学习和聚合。在每个级别上,首先通过MLP基于局部提示(该局部提示对局部区域中的点之间的相互依赖性进行建模)和全局上下文提示(其针对一个位置相对于所有其他位置的关系进行建模)来学习点特征。然后,使用MLP从非子节点的子节点计算其特征,并通过最大池化对其进行聚合。对于分类,重复上述过程直到获得根节点。
SO-Net网络的层次结构是通过执行点到节点k最近邻居搜索来构建的[80]。具体而言,修改后的置换不变自组织图(SOM)用于对点云的空间分布进行建模。通过一系列全连接层,从归一化的点到节点坐标中学习单个点的特征。 SOM中每个节点的特征是使用通道的最大池化从与此节点关联的点特征中提取的。然后使用类似于PointNet [5]的方法从节点特征中学习最终特征。与PointNet ++ [27]相比,SOM的层次结构效率更高,并且可以充分利用点云的空间分布。
2.2.5其他网络
- 逐点MLP网络通常用作其他类型的网络的基本构建块,以学习逐点特征。
- 作为标准的深度学习架构,基于卷积的网络可以在不规则的3D点云上实现出色的性能。对于不规则数据,应该更加注意离散卷积网络和连续卷积网络。
- 由于其固有的强大能力来处理不规则数据,基于图形的网络近年来引起了越来越多的关注。但是,将频谱域中的基于图的网络扩展到各种图结构仍然具有挑战性。
- 大多数网络需要将点云降采样为固定的小尺寸。此采样过程将丢弃形状的详细信息。 开发可以处理大规模点云的网络仍处于起步阶段[95]。
请各位关注公众号。更多的文章可以关注公众号查看。