このレポートでは、ECCV 2022 のロバスト ビジョン チャレンジのセマンティック セグメンテーション タスクの勝者ソリューションについて説明します。この方法では、エンコーダーとして FAN-B-Hybrid モデルを採用し、セグメンテーション フレームワークとして Segformer を使用します。このモデルは、9 つのデータセット (ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、Wilddash2、IDD、BDD、および COCO) からの画像を含む結合されたデータセットで、単純なデータセット バランシング戦略を使用してトレーニングされます。元のラベルはすべて 256 クラスの統一されたラベル空間に射影され、モデルは単純なクロス エントロピー損失でトレーニングされます。重要なハイパーパラメーターの調整や特定の損失の重み付けを行わなくても、当社のソリューションは、複数のドメイン (ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、および Wilddash2) から必要なすべてのセマンティック セグメンテーション ベンチマークで 1 位にランクされています。私たちの方法は、マルチドメイン セグメンテーション タスクの強力なベースラインとして機能する可能性があり、コードベースは将来の作業に役立つ可能性があります。コードは https://github.com/lambert-x/RVC_Segmentation で入手できます。
This report describes the winner solution to the semantic segmentation task of the Robust Vision Challenge on ECCV 2022. Our method adopts the FAN-B-Hybrid model as the encoder and uses Segformer as the segmentation framework. The model is trained on a combined dataset containing images from 9 datasets (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, Wilddash2, IDD, BDD, and COCO) with a simple dataset balancing strategy. All the original labels are projected to a 256-class unified label space, and the model is trained with naive cross-entropy loss. Without significant hyperparameters tuning or any specific loss weighting, our solution ranks 1st on all the required semantic segmentation benchmarks from multiple domains (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, and Wilddash2). Our method could be served as a strong baseline for the multi-domain segmentation task and our codebase could be helpful to future work. Code will be available at https://github.com/lambert-x/RVC_Segmentation.