教師ありトレーニングに必要なアノテーションの量を減らすことは、ラベルが不足していてコストがかかる場合に不可欠です。この削減は、3D データセットを含むセマンティック セグメンテーション タスクにとって特に重要です。3D データセットは、画像ベースの対応物よりもはるかに小さく、注釈付けが難しいことがよくあります。ラベル付けされていない大規模なデータセットでの自己教師付き事前トレーニングは、必要な手動アノテーションの量を減らす 1 つの方法です。以前の作業は、点群データのみを使用した事前トレーニングに焦点を当てていました。この方法では、多くの場合、2 つ以上の登録済みビューが必要になります。現在の作業では、最初に自己教師あり画像の特徴を学習し、次にこれらの特徴を使用して 3D モデルをトレーニングすることにより、画像と点群のモダリティを組み合わせます。多くの 3D データセットに含まれることが多い画像データを組み込むことで、事前トレーニング方法ではシーンを 1 回スキャンするだけで済みます。シングルスキャンを使用しているにもかかわらず、事前トレーニングアプローチが他のマルチスキャンの点群のみの方法に匹敵するパフォーマンスを達成することを示しています。
Reducing the quantity of annotations required for supervised training is vital when labels are scarce and costly. This reduction is especially important for semantic segmentation tasks involving 3D datasets that are often significantly smaller and more challenging to annotate than their image-based counterparts. Self-supervised pre-training on large unlabelled datasets is one way to reduce the amount of manual annotations needed. Previous work has focused on pre-training with point cloud data exclusively; this approach often requires two or more registered views. In the present work, we combine image and point cloud modalities, by first learning self-supervised image features and then using these features to train a 3D model. By incorporating image data, which is often included in many 3D datasets, our pre-training method only requires a single scan of a scene. We demonstrate that our pre-training approach, despite using single scans, achieves comparable performance to other multi-scan, point cloud-only methods.