arXiv reaDer
SegDA: ドメイン適応型セマンティック セグメンテーション用の擬似ラベルを使用した最大分離可能セグメント マスク
SegDA: Maximum Separable Segment Mask with Pseudo Labels for Domain Adaptive Semantic Segmentation
教師なしドメイン適応 (UDA) は、ラベルが豊富なソース ドメインから知識を転送することで、ターゲット ドメインのラベル不足の問題を解決することを目的としています。通常、ソース ドメインは合成画像で構成されており、よく知られたコンピュータ グラフィックス技術を使用して注釈を簡単に取得できます。ただし、実世界の画像 (ターゲット ドメイン) のアノテーションを取得するには、多くの手動アノテーション作業が必要であり、ピクセルごとのアノテーションが必要なため、非常に時間がかかります。この問題に対処するために、最大の分離可能なセグメント表現を学習することで UDA メソッドの転送パフォーマンスを向上させる SegDA モジュールを提案します。これにより、歩行者/ライダー、歩道/道路などの視覚的に類似したクラスを識別する問題が解決されます。セグメント クラス間の分離を最大限に高めるために、Neural Collapse からインスピレーションを得た等角タイト フレーム (ETF) 分類器を活用しました。これにより、ソース ドメインのピクセル表現が単一のベクトルに崩壊し、最大の分離可能な ETF 分類器に位置合わせされた単体頂点が形成されます。我々はこの現象を利用して、ターゲットドメインのセグメント表現のドメイン適応のための新しいアーキテクチャを提案します。さらに、ターゲット ドメイン画像のラベル付けにおけるノイズを推定し、擬似ラベルで識別されていないクラスのピクセルの発見を促進するノイズ補正のためにデコーダを更新することを提案しました。合成から現実、日中から夜間、晴天から悪天候のシナリオをシミュレートする 4 つの UDA ベンチマークを使用しました。私たちが提案したアプローチは、GTA -> Cityscapes で +2.2 mIoU、Synthia -> Cityscapes で +2.0 mIoU、Cityscapes -> DarkZurich で +5.9 mIoU、Cityscapes -> ACDC で +2.6 mIoU を上回ります。
Unsupervised Domain Adaptation (UDA) aims to solve the problem of label scarcity of the target domain by transferring the knowledge from the label rich source domain. Usually, the source domain consists of synthetic images for which the annotation is easily obtained using the well known computer graphics techniques. However, obtaining annotation for real world images (target domain) require lot of manual annotation effort and is very time consuming because it requires per pixel annotation. To address this problem we propose SegDA module to enhance transfer performance of UDA methods by learning the maximum separable segment representation. This resolves the problem of identifying visually similar classes like pedestrian/rider, sidewalk/road etc. We leveraged Equiangular Tight Frame (ETF) classifier inspired from Neural Collapse for maximal separation between segment classes. This causes the source domain pixel representation to collapse to a single vector forming a simplex vertices which are aligned to the maximal separable ETF classifier. We use this phenomenon to propose the novel architecture for domain adaptation of segment representation for target domain. Additionally, we proposed to estimate the noise in labelling the target domain images and update the decoder for noise correction which encourages the discovery of pixels for classes not identified in pseudo labels. We have used four UDA benchmarks simulating synthetic-to-real, daytime-to-nighttime, clear-to-adverse weather scenarios. Our proposed approach outperforms +2.2 mIoU on GTA -> Cityscapes, +2.0 mIoU on Synthia -> Cityscapes, +5.9 mIoU on Cityscapes -> DarkZurich, +2.6 mIoU on Cityscapes -> ACDC.
updated: Thu Aug 10 2023 20:35:48 GMT+0000 (UTC)
published: Thu Aug 10 2023 20:35:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト