arXiv reaDer
マルチビュー リモートセンシング画像セグメンテーションのための暗黙的な光線変換器
Implicit Ray-Transformers for Multi-view Remote Sensing Image Segmentation
主流の CNN ベースのリモート センシング (RS) 画像セマンティック セグメンテーション アプローチは、通常、大量のラベル付きトレーニング データに依存しています。このようなパラダイムは、シーン内の 3D 情報を考慮していないために、ラベル付けされたビューが制限されている RS マルチビュー シーン セグメンテーションの問題と格闘しています。この論文では、スパース ラベル (100 画像あたり 4 ~ 6 ラベルなど) を使用した RS シーン セマンティック セグメンテーションのために、暗黙的ニューラル表現 (INR) に基づく「暗黙的レイ トランスフォーマー (IRT)」を提案します。正確で一貫したビューのセマンティック セグメンテーションのために、タスクの前にマルチビュー 3D 構造を導入する新しい方法を検討します。提案手法には 2 段階の学習プロセスが含まれます。第 1 段階では、ニューラル フィールドを最適化し、多視点画像に基づいてリモート センシング シーンの色と 3D 構造をエンコードします。第 2 段階では、レイ トランスフォーマーを設計して、ニューラル フィールドの 3D 機能と 2D テクスチャ機能の関係を活用し、より優れたセマンティック表現を学習します。 3D 事前または 2D 機能のみを考慮する以前の方法とは異なり、サンプリングされたレイに沿って異なるポイント機能に CNN 機能をブロードキャストすることにより、追加の 2D テクスチャ情報と 3D 事前を組み込みます。提案された方法の有効性を検証するために、Carla プラットフォームから収集された 6 つの合成サブデータセットと Google マップから 3 つの実際のサブデータセットを含む挑戦的なデータセットを構築します。実験は、提案された方法が定量的および定性的なメトリックにおいてCNNベースの方法および最先端のINRベースのセグメンテーション方法よりも優れていることを示しています。
The mainstream CNN-based remote sensing (RS) image semantic segmentation approaches typically rely on massive labeled training data. Such a paradigm struggles with the problem of RS multi-view scene segmentation with limited labeled views due to the lack of considering 3D information within the scene. In this paper, we propose ''Implicit Ray-Transformer (IRT)'' based on Implicit Neural Representation (INR), for RS scene semantic segmentation with sparse labels (such as 4-6 labels per 100 images). We explore a new way of introducing multi-view 3D structure priors to the task for accurate and view-consistent semantic segmentation. The proposed method includes a two-stage learning process. In the first stage, we optimize a neural field to encode the color and 3D structure of the remote sensing scene based on multi-view images. In the second stage, we design a Ray Transformer to leverage the relations between the neural field 3D features and 2D texture features for learning better semantic representations. Different from previous methods that only consider 3D prior or 2D features, we incorporate additional 2D texture information and 3D prior by broadcasting CNN features to different point features along the sampled ray. To verify the effectiveness of the proposed method, we construct a challenging dataset containing six synthetic sub-datasets collected from the Carla platform and three real sub-datasets from Google Maps. Experiments show that the proposed method outperforms the CNN-based methods and the state-of-the-art INR-based segmentation methods in quantitative and qualitative metrics.
updated: Wed Mar 15 2023 07:05:07 GMT+0000 (UTC)
published: Wed Mar 15 2023 07:05:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト