arXiv reaDer
CLIP^2: 実世界の点群データからの対照的な言語イメージ点事前学習
CLIP^2: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data
大規模なラベル付けされていないテキストと画像のペアの恩恵を受ける対照的な言語と画像の事前トレーニングは、オープンワールドの視覚理解タスクで優れたパフォーマンスを発揮しました。ただし、テキストと 3D のデータ ペアが限られているため、2D 視覚言語モデル (VLM) の成功を 3D 空間に適応させることは未解決の問題のままです。 3D を理解するために VLM を利用する既存の作業は、一般に、3D データの中間の 2D 表現を構築することに頼っていますが、3D ジオメトリ情報を失うという代償を払っています。オープン ワールドの 3D ビジョンの理解に一歩踏み出すために、新しいプロキシ アライメント メカニズムを使用して、現実的なシナリオで転送可能な 3D ポイント クラウド表現を直接学習する Contrastive Language-Image-Point Cloud Pretraining (CLIP^2) を提案します。具体的には、2D および 3D シナリオで自然に存在する対応を活用し、これらの複雑なシナリオから適切に配置されたインスタンス ベースのテキスト-イメージ-ポイント プロキシを構築します。その上で、セマンティックおよびインスタンス レベルで整列されたポイント クラウド表現を学習するためのクロス モーダルな対比目標を提案します。屋内と屋外の両方のシナリオでの実験結果は、学習した 3D 表現が、ゼロショットおよび少数ショットの 3D 認識を含むダウンストリーム タスクで優れた転送能力を備えていることを示しています。これにより、最先端の方法が大幅に向上します。さらに、実際のシナリオでのさまざまな表現の機能の分析を提供し、オプションのアンサンブル スキームを提示します。
Contrastive Language-Image Pre-training, benefiting from large-scale unlabeled text-image pairs, has demonstrated great performance in open-world vision understanding tasks. However, due to the limited Text-3D data pairs, adapting the success of 2D Vision-Language Models (VLM) to the 3D space remains an open problem. Existing works that leverage VLM for 3D understanding generally resort to constructing intermediate 2D representations for the 3D data, but at the cost of losing 3D geometry information. To take a step toward open-world 3D vision understanding, we propose Contrastive Language-Image-Point Cloud Pretraining (CLIP^2) to directly learn the transferable 3D point cloud representation in realistic scenarios with a novel proxy alignment mechanism. Specifically, we exploit naturally-existed correspondences in 2D and 3D scenarios, and build well-aligned and instance-based text-image-point proxies from those complex scenarios. On top of that, we propose a cross-modal contrastive objective to learn semantic and instance-level aligned point cloud representation. Experimental results on both indoor and outdoor scenarios show that our learned 3D representation has great transfer ability in downstream tasks, including zero-shot and few-shot 3D recognition, which boosts the state-of-the-art methods by large margins. Furthermore, we provide analyses of the capability of different representations in real scenarios and present the optional ensemble scheme.
updated: Sun Mar 26 2023 11:55:40 GMT+0000 (UTC)
published: Wed Mar 22 2023 09:32:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト