Global and Local Texture Randomization for Synthetic-to-Real Semantic Segmentation
セマンティックセグメンテーションは、画像の各ピクセルが対応するラベルに分類される重要な画像理解タスクです。グラウンドトゥルースのピクセル単位のラベリングは面倒で手間がかかるため、実際のアプリケーションでは、多くの作業で合成画像を利用して、実際の単語の画像セマンティックセグメンテーション、つまり合成から実際のセマンティックセグメンテーション(SRSS)のモデルをトレーニングします。 。ただし、ソース合成データでトレーニングされたディープ畳み込みニューラルネットワーク(CNN)は、ターゲットの実世界データにうまく一般化されない場合があります。この作業では、ドメイン一般化ベースのSRSSに対して、2つのシンプルで効果的なテクスチャランダム化メカニズム、グローバルテクスチャランダム化(GTR)とローカルテクスチャランダム化(LTR)を提案します。 GTRは、ソース画像のテクスチャをさまざまな非現実的なテクスチャスタイルにランダム化するために提案されています。これは、ドメイン不変の手がかりの学習を促進しながら、テクスチャへのネットワークの依存を軽減することを目的としています。さらに、テクスチャの違いは画像全体で常に発生するとは限らず、一部のローカル領域でのみ表示される場合があります。したがって、ソース画像を部分的に様式化するための多様な局所領域を生成するためのLTRメカニズムをさらに提案します。最後に、トレーニング中に提案された2つのメカニズムを調和させることを目的として、GTRとLTR(CGL)間の整合性の正則化を実装します。さまざまなSRSS設定(GTA5 / SYNTHIAからCityscapes / BDDS / Mapillary)を使用した5つの公開されているデータセット(GTA5、SYNTHIA、Cityscapes、BDDS、Mapillary)での広範な実験により、提案された方法が現状よりも優れていることが示されています。ドメイン一般化ベースのSRSSのための最先端の方法。
Semantic segmentation is a crucial image understanding task, where each pixel of image is categorized into a corresponding label. Since the pixel-wise labeling for ground-truth is tedious and labor intensive, in practical applications, many works exploit the synthetic images to train the model for real-word image semantic segmentation, i.e., Synthetic-to-Real Semantic Segmentation (SRSS). However, Deep Convolutional Neural Networks (CNNs) trained on the source synthetic data may not generalize well to the target real-world data. In this work, we propose two simple yet effective texture randomization mechanisms, Global Texture Randomization (GTR) and Local Texture Randomization (LTR), for Domain Generalization based SRSS. GTR is proposed to randomize the texture of source images into diverse unreal texture styles. It aims to alleviate the reliance of the network on texture while promoting the learning of the domain-invariant cues. In addition, we find the texture difference is not always occurred in entire image and may only appear in some local areas. Therefore, we further propose a LTR mechanism to generate diverse local regions for partially stylizing the source images. Finally, we implement a regularization of Consistency between GTR and LTR (CGL) aiming to harmonize the two proposed mechanisms during training. Extensive experiments on five publicly available datasets (i.e., GTA5, SYNTHIA, Cityscapes, BDDS and Mapillary) with various SRSS settings (i.e., GTA5/SYNTHIA to Cityscapes/BDDS/Mapillary) demonstrate that the proposed method is superior to the state-of-the-art methods for domain generalization based SRSS.
updated: Fri Aug 06 2021 03:43:21 GMT+0000 (UTC)
published: Thu Aug 05 2021 05:14:49 GMT+0000 (UTC)
