低照度条件は人間の視覚体験を妨げるだけでなく、下流の視覚タスクにおけるモデルのパフォーマンスも低下させます。既存の研究は昼夜のドメイン適応に関して目覚ましい進歩を遂げていますが、タスク固有の夜間データセットから得られるドメイン知識に大きく依存しています。この論文では、境界適用性を備えたより複雑なシナリオ、つまり夜間データへの依存を排除するゼロショット昼夜ドメイン適応に挑戦します。画像レベルの変換またはモデルレベルの適応を重視する以前のゼロショット適応アプローチとは異なり、統一されたフレームワークの下でそれらを考慮する類似性最小-最大パラダイムを提案します。画像レベルでは、特徴の類似性が最小になるように画像を暗くして、ドメイン ギャップを拡大します。次に、モデル レベルで、暗い画像と通常の光の対応する画像の間の特徴の類似性を最大化し、モデルの適応を改善します。私たちの知る限り、この研究は両方の側面を共同で最適化する先駆的な取り組みであり、その結果、モデルの一般化可能性が大幅に向上しました。広範な実験により、分類、セマンティックセグメンテーション、視覚的場所認識、ビデオアクション認識などのさまざまな夜間視覚タスクに対する私たちの方法の有効性と幅広い適用性が実証されています。コードと事前トレーニングされたモデルは https://red-fairy.github.io/ZeroShotDayNightDA-Webpage/ で入手できます。
Low-light conditions not only hamper human visual experience but also degrade the model's performance on downstream vision tasks. While existing works make remarkable progress on day-night domain adaptation, they rely heavily on domain knowledge derived from the task-specific nighttime dataset. This paper challenges a more complicated scenario with border applicability, i.e., zero-shot day-night domain adaptation, which eliminates reliance on any nighttime data. Unlike prior zero-shot adaptation approaches emphasizing either image-level translation or model-level adaptation, we propose a similarity min-max paradigm that considers them under a unified framework. On the image level, we darken images towards minimum feature similarity to enlarge the domain gap. Then on the model level, we maximize the feature similarity between the darkened images and their normal-light counterparts for better model adaptation. To the best of our knowledge, this work represents the pioneering effort in jointly optimizing both aspects, resulting in a significant improvement of model generalizability. Extensive experiments demonstrate our method's effectiveness and broad applicability on various nighttime vision tasks, including classification, semantic segmentation, visual place recognition, and video action recognition. Code and pre-trained models are available at https://red-fairy.github.io/ZeroShotDayNightDA-Webpage/.