この論文では、合成データのみを使用して、目に見えない実世界のシーンに対してロバストなモデルを学習することを目的とした、合成から実領域への一般化されたセマンティックセグメンテーションのタスクを研究します。限られたソース環境変動や合成データと実世界データ間の大きな分布ギャップなど、合成データと実世界データ間の大きなドメインシフトは、目に見えない実世界のシーンでのモデルのパフォーマンスを大幅に妨げます。この作業では、このようなドメインシフトを処理するためのStyle-HAllucinated Dual consisTency Learning(SHADE)フレームワークを提案します。具体的には、SHADEは、スタイルの一貫性(SC)とレトロスペクションの一貫性(RC)の2つの一貫性制約に基づいて構築されます。 SCはソースの状況を充実させ、モデルがスタイルが多様化したサンプル全体で一貫した表現を学習するように促します。 RCは、実世界の知識を活用して、モデルが合成データに過剰適合するのを防ぎ、合成モデルと実世界モデルの間で表現の一貫性を維持します。さらに、一貫性の学習に不可欠なスタイルが多様化したサンプルを生成するための新しいスタイルの幻覚モジュール(SHM)を紹介します。 SHMは、ソース分布から基本スタイルを選択し、モデルがトレーニング中に多様で現実的なサンプルを動的に生成できるようにします。実験によると、SHADEは大幅な改善をもたらし、最新の方法よりも、シングルソース設定とマルチソース設定の3つの実際のデータセットの平均mIoUでそれぞれ5.05%と8.35%優れています。
In this paper, we study the task of synthetic-to-real domain generalized semantic segmentation, which aims to learn a model that is robust to unseen real-world scenes using only synthetic data. The large domain shift between synthetic and real-world data, including the limited source environmental variations and the large distribution gap between synthetic and real-world data, significantly hinders the model performance on unseen real-world scenes. In this work, we propose the Style-HAllucinated Dual consistEncy learning (SHADE) framework to handle such domain shift. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages real-world knowledge to prevent the model from overfitting to synthetic data and thus largely keeps the representation consistent between the synthetic and real-world models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Experiments show that our SHADE yields significant improvement and outperforms state-of-the-art methods by 5.05% and 8.35% on the average mIoU of three real-world datasets on single- and multi-source settings, respectively.