arXiv reaDer
最適トランスポートによるドメイン適応セマンティック セグメンテーション
Domain Adaptive Semantic Segmentation by Optimal Transport
シーン セグメンテーションは、環境認識のための自動運転の分野で広く使用されており、セマンティック シーン セグメンテーション (3S) は、含まれるセマンティック情報が豊富であるため、大きな注目を集めています。画像内のピクセルにラベルを割り当てることを目的としているため、画像の自動ラベル付けが可能になります。現在のアプローチは主に畳み込みニューラル ネットワーク (CNN) に基づいていますが、多数のラベルに依存しています。したがって、小さいサイズのラベル付きデータを使用してセマンティック セグメンテーションを実現する方法がますます重要になっています。この論文では、この問題に対処するために、最適なトランスポート (OT) とアテンション メカニズムに基づくドメイン アダプテーション (DA) フレームワークを提案します。具体的には、特徴表現の優位性から、まず CNN を介して出力空間を生成します。次に、OT を利用して、出力空間でソース ドメインとターゲット ドメインのより堅牢な配置を実現します。ここで、OT 計画は、モデルの適応を改善するための十分な注意メカニズムを定義します。特に OT では、ネットワーク パラメータの数が減り、ネットワークの解釈が容易になりました。第三に、機能のマルチスケール プロパティをより適切に説明するために、ドメイン適応を実行するマルチスケール セグメンテーション ネットワークを構築します。最後に、提案された方法のパフォーマンスを検証するために、3 つのベンチマークと 3 つのシーン データセットで 4 つの SOTA メソッドとの実験的比較を行い、平均交差オーバーユニオン (mIOU) が大幅に改善され、複数の下での可視化結果が得られました。ドメイン適応シナリオは、提案された方法が比較されたセマンティックセグメンテーション方法よりも優れたパフォーマンスを持っていることも示しています。
Scene segmentation is widely used in the field of autonomous driving for environment perception, and semantic scene segmentation (3S) has received a great deal of attention due to the richness of the semantic information it contains. It aims to assign labels to pixels in an image, thus enabling automatic image labeling. Current approaches are mainly based on convolutional neural networks (CNN), but they rely on a large number of labels. Therefore, how to use a small size of labeled data to achieve semantic segmentation becomes more and more important. In this paper, we propose a domain adaptation (DA) framework based on optimal transport (OT) and attention mechanism to address this issue. Concretely, first we generate the output space via CNN due to its superiority of feature representation. Second, we utilize OT to achieve a more robust alignment of source and target domains in output space, where the OT plan defines a well attention mechanism to improve the adaptation of the model. In particular, with OT, the number of network parameters has been reduced and the network has been better interpretable. Third, to better describe the multi-scale property of features, we construct a multi-scale segmentation network to perform domain adaptation. Finally, in order to verify the performance of our proposed method, we conduct experimental comparison with three benchmark and four SOTA methods on three scene datasets, and the mean intersection-over-union (mIOU) has been significant improved, and visualization results under multiple domain adaptation scenarios also show that our proposed method has better performance than compared semantic segmentation methods.
updated: Wed Mar 29 2023 03:33:54 GMT+0000 (UTC)
published: Wed Mar 29 2023 03:33:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト