ICRA2023利用真实世界中的海量无标注点云提升房屋结构估计
Paper 地址: https://arxiv.org/abs/2301.13865 开源代码仓库地址 : https://github.com/AIR-DISCOVER/Omni-PQ
图 1
一、 简介
室内场景的框架预测任务(Room layout estimation, [1, 2, 3, 4, 5] )是一项长期存在的机器人视觉任务,为机器人的环境感知和运动规划等行为提供算法层面的支持。但大多数现有的工作 [6, 7, 8, 9, 10, 11] 都尝试利用房屋的 2D 透视图或全景图作为输入,用 3D 点云作为输入 [12] 的方法仍然面临着标注难、数据缺乏的问题。 同时 ,我们相信在未来,世界各地的智能机器人可以利用大量的无标注数据来不断提高集体智慧(在本项目中即利用大量无标注的室内三维点云数据来提高框架预测准度)。 为此,我们先从半监督(Semi-supervised)设定开始探索,假设 ScanNet [13] 数据集只有一小部分比例的数据存在标注。 然后,我们将我们的方法推广到真实世界的半监督学习(Omni-supervised)的设定,使用最新发布的 ARKitScenes [14] 数据集来证明我们的方法的有效性。
实际上,半监督的室内场景框架预测在工作 SSLayout360 [15] 中已被提出。然而,这份工作只是简单地利用了模型参数指数移动平均(Exponential Moving Average of model parameters, EMA)技术,从没有标注的 2D 室内场景全景图中学习。同时,这种范式并不适用于全监督场景下室内场景框架预测任务的最新进展—— 基于 3D 点云作为输入,直接预测房屋的框架 [12]。
为此,我们提出 首个使用点云作为输入的半监督的室内场景框架预测方法 。我们的方法建立在室内场景框架预测的原 SOTA 方法 PQ-Transformer [12] 之上,该方法的输入是室内场景的三维点云(图 1(a)),并训练模型直接预测一组代表房屋框架元素(墙、地板或天花板)的平面参数,包括平面中心点坐标、平面法向与平面的长与宽。但是,该方法在缺少数据标注时表现并不理想,正如图 1(b) 中所展示的,在只利用 20% 数据的情况之下,它在没见过的室内场景中表现十分之差。而相比之下,我们的方法则可以利用剩下的 80% 的无标注的数据中所蕴含的知识,从而预测出更准确的房屋框架,正如图 1(c) 所示。
具体来说,我们方法的成功主要有两个原因。
· 第一 是基于模型输出一致性的训练框架,其灵感来自于 Mean Teacher [16] 方法。基于中心距离最近这一匹配策略,我们定义了两组场景框架预测结果之间的"距离",设计了三组损失函数来约束面对输入扰动时,模型输出的一致性。
· 第二 是一个伪标签改良模块,我们在点云和预测框架间定义一个新的度量(Metric)来表示点云中的点和某个预测框架的相关性,然后假设这个度量服从 混合分布,将这个度量分解成两支。
直观上来说,我们通过这种方法将和预测框架强相关的点筛选出来,然后利用这些筛选出来的点进一步估计一个更加准确的场景框架作为"伪标签"。消融实验证明这两种方法都是有效的,而将它们结合起来会带来更大的改进。
通过实验,可以证明我们方法的有效性:
1. 在 ScanNet 数据集上,面对不同的有标注的数据比例(5% ∼ 40%),我们的方法在无标注数据的帮助下,可以大大超越仅用这些标注数据训练的基线模型。
2. 仅用 ScanNet 40% 的标注数据,我们就能够超越原先的全监督 SOTA。
3. 即使是在 ScanNet 全监督的设置中,引入我们的方法还可以比基线结果提高+4.11 %。
4. 我们进一步将我们的方法扩展到真实世界的半监督学习的设置中 [17],利用所有 ScanNet 训练数据和未标记的 ARKitScenes [14] 数据,在 ARKitScenes 测试集上取得了显著的性能提升,F1 分数从 10.66% 上升到 25.85%。
总结来看,我们的作品贡献如下:
· 我们提出了首个点云输入的室内场景框架预测任务的半监督框架,包括中心距离最近匹配策略和三组一致性损失函数。
· 我们提出了一种通过分解相关性度量这一混合分布来筛选和预测结果有关联的点的伪标签改良技术。
· 我们在半监督、全监督和真实世界的半监督学习的实验设定下都取得了显著的成果。
二、 方法
我们要提出一个训练框架,它应该能在给定室内场景点云 的情况下,去预测房屋的框架 。跟随 [12] 的定义,我们将房屋的每个框架记作 ,其中 表示中心坐标, 表示法向量, 表示这面墙的长与高。
首先,我们来表述三种不同的训练设定。假设我们有 3D 点云数据集 ,其包含了所代表的场景房屋的边框信息标注,同时我们有一个更大的3D 室内场景点云数据集 ,其不含边框标注信息。
· 半监督 的场景是指, 是训练集的其中一部分数据,保留其边框的标注信息,而 是这个训练集中的所有数据,但将其中的所有标注信息均舍去。
· 全监督 的场景是指, 就是这个完整的训练集,保留其边框的标注信息,而 是这个训练集中的所有数据,但将其中的所有标注信息均舍去。
· 真实世界的半监督学习 [17] 的场景是指, 是某个数据集 A 完整的训练集,而 是某个数据集 B 的训练集,但将其中的标注信息均舍去,最后在数据集 B 的验证集上进行验证。
这三种实验设定我们均使用统一的符号 与 来表示其采用的两种数据集。正如图 2 所展示的,在 2.1 节中,我们将 Mean Teacher 训练框架改编成端到端训练的形式,辅以框架匹配策略和三个全新的一致性损失函数。在 2.2 节中,我们将一个伪标签改良模块纳入到训练框架中。
图 2 基于一致性的方法(QMT)
为了实现一致性约束,我们从Mean Teacher [16] 中得到启发,同时维护同样架构的学生网络与教师网络,给它们输入经过不同扰动的数据,然后让它们的输出结果尽可能保持一致。这种方法成功的关键在于数据扰动方式的选取与一致性损失函数的设计,我们接下来进行详细阐释。
图 3 数据增广方法
我们采用四种数据增广的方式,FPS 降采样(Farthest Point Sampling)[23]、沿 X/Y 轴翻转、沿 Z 轴旋转以及坐标缩放。FPS 降采样通过不断重复选择距离已选点集合最远的点来实现对点云降采样的同时尽可能少地丢弃含重要几何信息的点的目的。而点云的翻转、旋转与坐标缩放则是在模仿视角的变换。
在这几种数据增广方式中,房屋边框的标注对点云降采样是不变的(Invariant),因为降采样不会更改房屋的几何形状,而对其他三种是等变(Equivariant)的,即对点云进行的变换也要体现到边框标签上。因此,在我们的训练架构中,在学生网络前和教师网络后的两次变换中,我们采用的FPS 种子是不同的,而对其他三种变换采用相同的随机参数,以达到将输出结果变换到同一坐标系,方便后续比较的目的。
边框集合匹配策略
我们的目标是定义出教师网络与学生网络两组边框预测结果之间的"差距",方便将其作为损失函数优化。要想定义两个集合之间的差距,我们首先定义集合中元素间的距离,也就是预测边框和预测边框之间的距离。给定预测边框 和 ,这里 代表网络同时预测出的"信心分数",即预测的这个几何形状是"边框"的概率,我们定义其距离为:
然后我们定义这两个集合之间的距离,我们使用中心距离最近原则来在两组预测结果之间先建立联系。具体来说,对于每个教师网络的预测边框 ,我们去找离它中心点最近的学生网络预测边框 ,然后建立映射关系 来表示教师网络的预测边框到相应的学生网络的预测边框的单射:
一致性损失函数设计
注意到虽然教师网络的预测结果的几何特征(即 )可能不甚准确,但其信心分数 却可以较为精确地度量该预测结果的可信程度。考虑到教师网络的预测结果往往比学生网络更可靠,我们使用教师网络的信心分数 作为权重,定义一致性损失函数 为:
基于伪标签的方法(GMF)
在这一阶段,我们引入 Gamma Mixture Filtering 模块,该模块进一步利用无标注的数据,用有噪声的预测结果 对点云中的点进行筛选,重新估计出更准确的预测结果 。
根据房屋边框的特性,一个朴素的方法是将与当前预测结果的垂直距离低于阈值 的点都筛选出来,然后用这些点来估计一个更准确的边框。然而,采用这种方法则不可避免地要手动调整超参数 。而这样做往往可能并不可行,因为一个固定的阈值通常不适用于所有场景。此外,仅仅使用垂直距离作为筛选的度量,可能会错误地将房间角落中属于其他边框的点给筛选出来,使得重新估计的伪标签更加不准确。为了解决这些问题,我们先提出 1) 点云中的点和预测边框之间的相关性度量,然后 2) 使用 混合分布成分分解的方法来自动选择在先前提出的度量下筛选点的阈值。
图 4 相关性度量 我们提出一个混合指标来衡量点和预测边框之间的距离,综合考虑了点到边框的垂直距离,法向差异和预测边框大小等因素。假设点 坐标为 ,法向为 (可以使用相邻点做最小二乘估计),预测边框 的平面方程为 , 。那么点和预测框架之间的垂直距离可以表示为: 注意这里 代表归一化后的单位向量。但在某些情况下(比如房屋角落处),虽然点到边框的距离很近,但是它们的法向可能是垂直的,单纯使用这个度量可能会将属于其他边框的点错误地保留。于是,我们为点的法向和边框的法向定义一个余弦相似度度量: 此外,我们还需要考虑点与边框大小的关系。由于预测边框总是与 平行,我们可以用 来表示其长边的方向。于是,点到边框中心的投影距离的分量就可以表示为 , 。于是,我们可以用下面的度量来刻画点和边框大小的关系: 我们使用这三种度量的和来组成我们的混合度量: 混合分布成分分解 在这一阶段我们使用提出的混合度量 来对点云中的点进行筛选。我们首先计算点云中所有点和这个预测边框的度量,然后用这个度量去拟合一个概率混合模型,其概率密度函数(PDF)可定义为:
其中 和 是分支分布的概率密度函数,这里使用 分布进行近似, 是分支分布的权重,满足 。而为了解这个概率分布函数的参数 ,我们参考了 [24] 中的做法,使用 EM 算法迭代式地进行拟合。我们可以选取满足 的点 来作为和预测边框强相关的点,其中 。 伪标签生成: 假设在上一阶段挑选出点集 ,我们需要估计一个更为精确的伪标签 。对于伪标签的中心点和法向,我们直接取平均值: , 。而对于伪标签的大小,我们则要降低采样的误差:首先从 中均匀采样 个值 ,然后使用 来估算边框的大小。 其中 代表 在 的分位数(在 轴和 轴分别计算)。 在训练的每一步中,我们对于每一个场景都随机选取一个教师网络的预测结果来优化成伪标签 。然后我们提出伪标签损失函数为: 损失函数 在实验中,学生网络优化的损失函数为:
其中 和 为可调节的损失函数权重, 为对有标注的数据施加的全监督损失函数,定义与 [12] 中相同。
三、 实验
半监督与全监督场景
由于有标注数据的缺少,在 ScanNet 数据集上以三维点云作为输入的边框预测模型并不多,而此前更是没有工作探究过在半监督场景下如何解决这个问题。我们给出这个领域的两个模型,SceneCAD [25] 和 PQ-Transformer [12] 在所有 ScanNet 训练集数据(100 %) 上训练得到的框架预测准度。
我们对我们的方法和基线方法在 ScanNet 的验证集上对各种半监督设置进行了评估,并在表 1 中汇报了预测结果的 F1 得分。在表 1 的第一行中,我们用百分比表示从 ScanNet 训练集中拿出多少比例的数据作为有标注数据集 。而至于无标注数据集 ,我们则利用了所有去掉标注的 ScanNet 训练集的点云场景。 表1
从表 1 中可以看出,无论是基于一致性的方法(QMT)还是基于伪标签的方法(GMF)都能带来性能的提升。而将这两种技术结合在一起,模型的性能可以被进一步的解放。不管有标注的数据比例有多少,我们方法的性能都比基线结果要好很多。在只有 40 % 的标注的前提下,我们的方法达到了比原先全监督设定下更好的性能。除此之外,我们的方法在全监督的情况下也可以进一步提高模型的能力。我们把这一现象归因于基于一致性的方法给模型带来的对扰动鲁棒性的提升,以及伪标签改良模块提供的关于房屋边框的知识的指导。 真实世界的半监督场景 我们进一步证明我们的方法在真实世界的半监督场景下的有效性。具体来说,我们用 ScanNet 的整个训练集作为有标注数据集 ,而用最新发布的 ARKitScenes 数据集的训练集中的所有点云数据作为无标注数据集 。然后,我们在 ARKitScenes 数据集的验证集上评估模型的性能。正如表 2 所示,与以前的方法相比,我们的方法有明显的优势,表现出了更加有效的泛化能力。
表 2 此外,我们分别在图 5 和 图 6 中提供了我们的方法在 ScanNet 和 ARKitScenes 上的房屋场景边框预测的可视化结果。
图 5
图 6 此外,我们还通过一系列的消融实验证明了我们提出的方法的各个部分的作用,感兴趣的读者可以查看原论文。
四、总结
我们的工作主要探究半监督设定下的点云输入的室内场景框架预测任务。我们的训练框架结合了基于一致性的方法和基于伪标签改良的算法,以此来更好地利用未标记的数据。实验结果证明了我们的方法在半监督、全监督和真实世界的半监督学习设定下的有效性。我们的方法仍然具有一定的局限性,比如在不完整的场景中,我们的方法预测不出没有被扫描到的墙壁。在未来,我们会继续探究改进的可能性,包括将本方法做成在线的工具包,充分利用 PQ-Transformer [12] 模型的实时推理速度。
参考文献 [1] Yang, S., D. Maturana, S. Scherer. Real-time 3d scene layout from a single image using convolutional neural networks. In 2016 IEEE international conference on robotics and automation (ICRA), pages 2183–2189. IEEE, 2016. [2] Hedau, V., D. Hoiem, D. Forsyth. Recovering the spatial layout of cluttered rooms. In 2009 IEEE 12th international conference on computer vision, pages 1849–1856. IEEE, 2009. [3] Hosseinzadeh, M., Y. Latif, T. Pham, et al. Structure aware slam using quadrics and planes. In Asian Conference on Computer Vision, pages 410–426. Springer, 2018. [4] Pintore, G., M. Agus, E. Gobbetti. Atlantanet: Inferring the 3d indoor layout from a single 360◦ image beyond the manhattan world assumption. In European Conference on Computer Vision, pages 432–448. Springer, 2020. [5] Yan, C., B. Shao, H. Zhao, et al. 3d room layout estimation from a single rgb image. IEEE Transactions on Multimedia, 22(11):3014–3024, 2020. [6] Zou, C., J.-W. Su, C.-H. Peng, et al. Manhattan room layout reconstruction from a single 360◦ image: A comparative study of state-of-the-art methods. International Journal of Computer Vision, 129(5):1410–1431, 2021. [7] Liu, C., A. G. Schwing, K. Kundu, et al. Rent3d: Floor-plan priors for monocular layout estimation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3413–3421. 2015. [8] Zhang, W., Y. Zhang, R. Song, et al. 3d layout estimation via weakly supervised learning of plane parameters from 2d segmentation. IEEE Transactions on Image Processing, 31:868–879, 2021. [9] Hirzer, M., V. Lepetit, P. ROTH. Smart hypothesis generation for efficient and robust room layout estimation. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2912–2920. 2020. [10] Zhang, W., W. Zhang, Y. Zhang. Geolayout: Geometry driven room layout estimation based on depth maps of planes. In European Conference on Computer Vision, pages 632–648. Springer, 2020. [11] Lin, H. J., S.-H. Lai. Deeproom: 3d room layout and pose estimation from a single image. In Asian Conference on Pattern Recognition, pages 719–733. Springer, 2019. [12] Chen, X., H. Zhao, G. Zhou, et al. Pq-transformer: Jointly parsing 3d objects and layouts from point clouds. IEEE Robotics and Automation Letters, 7(2):2519–2526, 2022. [13] Dai, A., A. X. Chang, M. Savva, et al. Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5828–5839. 2017. [14] Dehghan, A., G. Baruch, Z. Chen, et al. Arkitscenes: A perse real-world dataset for 3d indoor scene understanding using mobile rgb-d data. In NeurIPS Datasets and Benchmarks. 2021. [15] Tran, P. V. Sslayout360: Semi-supervised indoor layout estimation from 360deg panorama. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 15353–15362. 2021. [16] Tarvainen, A., H. Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. Advances in neural information processing systems, 30, 2017. [17] Radosavovic, I., P. Dollár, R. Girshick, et al. Data distillation: Towards omni-supervised learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4119–4128. 2018. [18] Laine, S., T. Aila. Temporal ensembling for semi-supervised learning. In International Conference on Learning Representations. 2017. [19] Yin, J., J. Fang, D. Zhou, et al. Semi-supervised 3d object detection with proficient teachers. arXiv preprint arXiv:2207.12655, 2022. [20] Sohn, K., D. Berthelot, N. Carlini, et al. Fixmatch: Simplifying semi-supervised learning with consistency and confidence. Advances in neural information processing systems, 33:596–608, 2020. [21] Zhang, B., Y. Wang, W. Hou, et al. Flexmatch: Boosting semi-supervised learning with curriculum pseudo labeling. Advances in Neural Information Processing Systems, 34:18408– 18419, 2021. [22] Li, G., X. Li, Y. Wang, et al. Pseco: Pseudo labeling and consistency training for semi-supervised object detection. arXiv preprint arXiv:2203.16317, 2022. [23] Qi, C. R., L. Yi, H. Su, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. Advances in neural information processing systems, 30, 2017. [24] Zhao, H., M. Lu, A. Yao, et al. Pointly-supervised scene parsing with uncertainty mixture. Computer Vision and Image Understanding, 200:103040, 2020. [25] Avetisyan, A., T. Khanova, C. Choy, et al. Scenecad: Predicting object alignments and layouts in rgb-d scans. In European Conference on Computer Vision, pages 596–612. Springer, 2020. [26] Zhao, N., T.-S. Chua, G. H. Lee. Sess: Self-ensembling semi-supervised 3d object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11079–11087. 2020. 作者:高焕昂 Illustration b y Pixel True fro m IconScout -TheEnd- 扫码观看 !
本周上新!
多家技术企业招聘来啦!多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自科技大厂微软亚研、腾讯、小红书等企业,科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦! 扫描了解详情~
关于我"门"
▼ 将门 是一家以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ,旗下涵盖 将门创新服务 、将门技术社群以及。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我"门":
⤵一键送你进入TechBeat快乐星球