3Dシーンの理解が急速に進歩し、データに対する需要が高まっています。ただし、3Dシーン(点群など)の収集と注釈付けは非常に難しいことで有名です。たとえば、アクセスしてスキャンできるシーン(屋内の部屋など)の数が制限されている場合があります。十分なデータが与えられたとしても、3Dラベル(インスタンスマスクなど)を取得するには、多大な人的労力が必要です。このホワイトペーパーでは、3Dポイントクラウドのデータ効率の高い学習について説明します。この方向への第一歩として、シーン内のポイントレベルの対応と空間コンテキストの両方を利用する3D事前トレーニング方法である対照シーンコンテキストを提案します。私たちの方法は、トレーニングデータやラベルが不足している一連のベンチマークで最先端の結果を達成します。私たちの研究は、3D点群の徹底的なラベリングが不要かもしれないことを明らかにしています。また、ScanNetでは、ポイントラベルの0.1%を使用しても、完全なアノテーションを使用したベースラインパフォーマンスの89%(インスタンスセグメンテーション)と96%(セマンティックセグメンテーション)を達成しています。
The rapid progress in 3D scene understanding has come with growing demand for data; however, collecting and annotating 3D scenes (e.g. point clouds) are notoriously hard. For example, the number of scenes (e.g. indoor rooms) that can be accessed and scanned might be limited; even given sufficient data, acquiring 3D labels (e.g. instance masks) requires intensive human labor. In this paper, we explore data-efficient learning for 3D point cloud. As a first step towards this direction, we propose Contrastive Scene Contexts, a 3D pre-training method that makes use of both point-level correspondences and spatial contexts in a scene. Our method achieves state-of-the-art results on a suite of benchmarks where training data or labels are scarce. Our study reveals that exhaustive labelling of 3D point clouds might be unnecessary; and remarkably, on ScanNet, even using 0.1% of point labels, we still achieve 89% (instance segmentation) and 96% (semantic segmentation) of the baseline performance that uses full annotations.