arXiv reaDer
画像は点群を理解する: アソシエーション学習による弱教師あり 3D セマンティック セグメンテーション
Image Understands Point Cloud: Weakly Supervised 3D Semantic Segmentation via Association Learning
必要なラベルが 1% 以下の弱教師付き点群セマンティック セグメンテーション メソッドは、最近、広範な研究の注目を集めている、完全教師ありアプローチとほぼ同じパフォーマンスを実現することを望んでいます。このフレームワークの典型的な解決策は、自己トレーニングまたは疑似ラベル付けを使用して、点群自体から監視をマイニングしますが、画像からの重要な情報を無視することです。実際、LiDAR シナリオにはカメラが広く存在しており、この補完的な情報は 3D アプリケーションにとって非常に重要であると思われます。この論文では、ラベルのない画像からの補完的な情報を組み込んだ、3D セグメンテーションのための新しいクロスモダリティの弱い教師あり方法を提案します。基本的に、ラベルの小さな部分の力を最大化し、2D から 3D への知識の伝達を直接実現するために、アクティブなラベル付け戦略を備えたデュアル ブランチ ネットワークを設計します。その後、疑似ラベルの推定とパラメーターの更新の間を繰り返す、期待値最大 (EM) の観点から、クロスモーダルな自己トレーニング フレームワークを確立します。 M-Step では、3D ポイントと 2D スーパーピクセル間のサイクルの一貫性を強化することにより、画像から補完的な監視をマイニングするクロスモーダル アソシエーション学習を提案します。 E ステップでは、疑似ラベル自己修正メカニズムが導出されてノイズ ラベルがフィルタリングされ、ネットワークが完全にトレーニングされるように、より正確なラベルが提供されます。広範な実験結果は、私たちの方法が、アクティブに選択された注釈が 1% 未満の最先端の完全に監視された競合他社よりも優れていることを示しています。
Weakly supervised point cloud semantic segmentation methods that require 1% or fewer labels, hoping to realize almost the same performance as fully supervised approaches, which recently, have attracted extensive research attention. A typical solution in this framework is to use self-training or pseudo labeling to mine the supervision from the point cloud itself, but ignore the critical information from images. In fact, cameras widely exist in LiDAR scenarios and this complementary information seems to be greatly important for 3D applications. In this paper, we propose a novel cross-modality weakly supervised method for 3D segmentation, incorporating complementary information from unlabeled images. Basically, we design a dual-branch network equipped with an active labeling strategy, to maximize the power of tiny parts of labels and directly realize 2D-to-3D knowledge transfer. Afterwards, we establish a cross-modal self-training framework in an Expectation-Maximum (EM) perspective, which iterates between pseudo labels estimation and parameters updating. In the M-Step, we propose a cross-modal association learning to mine complementary supervision from images by reinforcing the cycle-consistency between 3D points and 2D superpixels. In the E-step, a pseudo label self-rectification mechanism is derived to filter noise labels thus providing more accurate labels for the networks to get fully trained. The extensive experimental results demonstrate that our method even outperforms the state-of-the-art fully supervised competitors with less than 1% actively selected annotations.
updated: Fri Sep 16 2022 07:59:04 GMT+0000 (UTC)
published: Fri Sep 16 2022 07:59:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト