このレポートでは、ECCV 2022 のロバスト ビジョン チャレンジのセマンティック セグメンテーション タスクに対する勝利ソリューションについて説明します。この方法では、エンコーダーとして FAN-B-Hybrid モデルを採用し、セグメンテーション フレームワークとして Segformer を使用します。このモデルは、9 つのデータセット (ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、WildDash 2、IDD、BDD、および COCO) からの画像で構成される複合データセットで、単純なデータセット バランシング戦略を使用してトレーニングされます。すべての元のラベルは 256 クラスの統一されたラベル空間に射影され、クロス エントロピー損失を使用してモデルがトレーニングされます。大幅なハイパーパラメータ調整や特定の損失加重なしで、当社のソリューションは、複数のドメイン (ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、および WildDash 2) からのすべてのテスト セマンティック セグメンテーション ベンチマークで第 1 位にランクされています。提案された方法は、マルチドメイン セグメンテーション タスクの強力なベースラインとして機能し、将来の作業に役立ちます。コードは https://github.com/lambert-x/RVC_Segmentation で入手できます。
This report describes the winning solution to the semantic segmentation task of the Robust Vision Challenge on ECCV 2022. Our method adopts the FAN-B-Hybrid model as the encoder and uses Segformer as the segmentation framework. The model is trained on a composite dataset consisting of images from 9 datasets (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, WildDash 2, IDD, BDD, and COCO) with a simple dataset balancing strategy. All the original labels are projected to a 256-class unified label space, and the model is trained using a cross-entropy loss. Without significant hyperparameter tuning or any specific loss weighting, our solution ranks the first place on all the testing semantic segmentation benchmarks from multiple domains (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, and WildDash 2). The proposed method could serve as a strong baseline for the multi-domain segmentation task and benefit future works. Code will be available at https://github.com/lambert-x/RVC_Segmentation.