夜間のセマンティック セグメンテーション研究のほとんどは、ドメイン適応アプローチと画像入力に基づいています。しかし、従来のカメラのダイナミックレンジが低いため、画像は低光量条件では構造の詳細や境界情報を捉えることができません。イベント カメラは、新しい形式のビジョン センサーであり、その高いダイナミック レンジにより従来のカメラを補完します。この目的を達成するために、我々は、夜間のセマンティックセグメンテーションにマルチモダリティ(画像とイベント)情報を活用し、昼間画像のラベルのみを使用する新しい教師なしクロスモダリティドメイン適応(CMDA)フレームワークを提案します。 CMDA では、さまざまなモダリティ (画像からイベント) とドメイン (昼から夜) の間のギャップを埋めるために、動き情報を抽出する Image Motion-Extractor と画像からコンテンツ情報を抽出する Image Content-Extractor を設計します。さらに、最初の画像イベント夜間セマンティック セグメンテーション データセットを紹介します。公開画像データセットと提案された画像イベント データセットの両方に対する広範な実験により、提案されたアプローチの有効性が実証されました。コード、モデル、データセットは https://github.com/XiaRho/CMDA でオープンソース化されています。
Most nighttime semantic segmentation studies are based on domain adaptation approaches and image input. However, limited by the low dynamic range of conventional cameras, images fail to capture structural details and boundary information in low-light conditions. Event cameras, as a new form of vision sensors, are complementary to conventional cameras with their high dynamic range. To this end, we propose a novel unsupervised Cross-Modality Domain Adaptation (CMDA) framework to leverage multi-modality (Images and Events) information for nighttime semantic segmentation, with only labels on daytime images. In CMDA, we design the Image Motion-Extractor to extract motion information and the Image Content-Extractor to extract content information from images, in order to bridge the gap between different modalities (Images to Events) and domains (Day to Night). Besides, we introduce the first image-event nighttime semantic segmentation dataset. Extensive experiments on both the public image dataset and the proposed image-event dataset demonstrate the effectiveness of our proposed approach. We open-source our code, models, and dataset at https://github.com/XiaRho/CMDA.