Pixel-by-Pixel Cross-Domain Alignment for Few-Shot Semantic Segmentation
この論文では、自動運転アプリケーションにおけるセマンティックセグメンテーションのタスクについて考察します。具体的には、トレーニングで使用できる実世界の注釈付き画像が少なく、注釈付き合成画像が多いクロスドメインの数ショット設定を検討します。このコンテキストでは、ドメインの整列は、セグメンテーションに固有であり、過小評価されたクラスを無視し、適切に表現されたクラスを過剰適合させるピクセル単位のクラスの不均衡によって、より困難になります。この問題は、Pixel-By-Pixel Cross-Domain Alignment(PixDA)と呼ばれる新しいフレームワークで対処します。 3つの基準に従って、新しいピクセルごとのドメインの敵対的損失を提案します。(i)各ピクセルのソースドメインとターゲットドメインを調整し、(ii)正しく表現されたピクセルでの負の転送を回避し、(iii)のトレーニングを正規化します。過剰適合を回避するためのまれなクラス。ピクセル単位の敵対的トレーニングは、ソースデータとターゲットデータ間の不均衡を処理する新しいサンプル選択手順と、少数のターゲット画像への過剰適合を回避する知識蒸留戦略によって支援されます。 PixDAが(1-5)ショット設定で以前の最先端の方法よりも優れていることを、標準の合成から実際へのベンチマークで示します。
In this paper we consider the task of semantic segmentation in autonomous driving applications. Specifically, we consider the cross-domain few-shot setting where training can use only few real-world annotated images and many annotated synthetic images. In this context, aligning the domains is made more challenging by the pixel-wise class imbalance that is intrinsic in the segmentation and that leads to ignoring the underrepresented classes and overfitting the well represented ones. We address this problem with a novel framework called Pixel-By-Pixel Cross-Domain Alignment (PixDA). We propose a novel pixel-by-pixel domain adversarial loss following three criteria: (i) align the source and the target domain for each pixel, (ii) avoid negative transfer on the correctly represented pixels, and (iii) regularize the training of infrequent classes to avoid overfitting. The pixel-wise adversarial training is assisted by a novel sample selection procedure, that handles the imbalance between source and target data, and a knowledge distillation strategy, that avoids overfitting towards the few target images. We demonstrate on standard synthetic-to-real benchmarks that PixDA outperforms previous state-of-the-art methods in (1-5)-shot settings.
updated: Fri Oct 22 2021 08:27:17 GMT+0000 (UTC)
published: Fri Oct 22 2021 08:27:17 GMT+0000 (UTC)
