arXiv reaDer
ビデオセマンティックセグメンテーションのための教師なしドメイン適応
Unsupervised Domain Adaptation for Video Semantic Segmentation
セマンティックセグメンテーションの教師なしドメイン適応は、ピクセルごとの面倒なラベリング作業を実際に大幅に削減することで、知識をシミュレーションから実際の(Sim2Real)に転送できるため、非常に人気があります。この作業では、このタスクの新しいビデオ拡張機能、つまりビデオセマンティックセグメンテーションのための教師なしドメイン適応を紹介します。シミュレーションによって大規模なビデオラベルを取得することが容易になったため、Sim2Realの知識の伝達可能性を最大化することは、ビデオの根本的なデータ不足の問題を解決するための有望な方向性の1つであると考えています。この新しい問題に取り組むために、我々は新しい二相適応スキームを提示します。最初のステップでは、教師あり損失関数を使用してソースドメインの知識を徹底的に抽出します。同時に、ビデオコンテキストを利用してソースからターゲットに機能を調整するためにビデオ敵対トレーニング(VAT)が採用されています。 2番目のステップでは、ターゲットデータのみに焦点を当てて、ビデオセルフトレーニング(VST)を適用します。堅牢な疑似ラベルを構築するために、以前の画像ベースのセルフトレーニングアプローチではめったに調査されなかったビデオの時間情報を活用します。 「VIPERtoCityscapeVPS」適応シナリオに強力なベースラインスコアを設定しました。私たちの提案は、画像レベル(mIoU)とビデオレベル(VPQ)の両方の評価指標において、以前の画像ベースのUDA手法を大幅に上回っていることを示しています。
Unsupervised Domain Adaptation for semantic segmentation has gained immense popularity since it can transfer knowledge from simulation to real (Sim2Real) by largely cutting out the laborious per pixel labeling efforts at real. In this work, we present a new video extension of this task, namely Unsupervised Domain Adaptation for Video Semantic Segmentation. As it became easy to obtain large-scale video labels through simulation, we believe attempting to maximize Sim2Real knowledge transferability is one of the promising directions for resolving the fundamental data-hungry issue in the video. To tackle this new problem, we present a novel two-phase adaptation scheme. In the first step, we exhaustively distill source domain knowledge using supervised loss functions. Simultaneously, video adversarial training (VAT) is employed to align the features from source to target utilizing video context. In the second step, we apply video self-training (VST), focusing only on the target data. To construct robust pseudo labels, we exploit the temporal information in the video, which has been rarely explored in the previous image-based self-training approaches. We set strong baseline scores on 'VIPER to CityscapeVPS' adaptation scenario. We show that our proposals significantly outperform previous image-based UDA methods both on image-level (mIoU) and video-level (VPQ) evaluation metrics.
updated: Mon Sep 13 2021 16:16:55 GMT+0000 (UTC)
published: Fri Jul 23 2021 07:18:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト