arXiv reaDer
悪天候の除去における大規模な事前トレーニング済みモデルの応用の探求
Exploring the Application of Large-scale Pre-trained Models on Adverse Weather Removal
悪天候条件 (雨、雪、霧など) での画像復元は、コンピュータ ビジョンの基本的な問題であり、さまざまな下流アプリケーションにとって重要な兆候となります。特定の種類の気象に合わせて特別に設計された初期の方法とは異なり、最近の研究では、空間特徴表現の学習または意味論的な情報の埋め込みのいずれかによって、さまざまな悪天候の影響を同時に除去する傾向があります。大規模な事前トレーニング済みモデル (CLIP など) のさまざまな成功したアプリケーションに触発され、この論文では、空間特徴表現の学習と意味情報の埋め込みの両方の側面を通じて、このタスクに対するそれらの潜在的な利点を探ります。特徴表現の学習では、劣化領域を適応的に抽出する空間適応残差 (SAR) エンコーダーを設計します。訓練を容易にするために、我々は、晴天画像と悪天候画像の間で CLIP からの空間知識を転送する軟残留蒸留 (CLIP-SRD) 戦略を提案します。 2) セマンティック情報の埋め込みについては、ネットワークがさまざまな気象条件に適応的に対処できるようにするための CLIP Weather Prior (CWP) 埋め込みモジュールを提案します。このモジュールは、CLIP 画像エンコーダによって事前に抽出されたサンプル特有の天気と、一連のパラメータによって学習された分布特有の情報を統合し、クロス アテンション メカニズムを通じてそれらを埋め込みます。広範な実験により、私たちが提案した方法が、さまざまな困難な悪天候条件下でも最先端のパフォーマンスを達成できることが実証されました。コードが利用可能になります。
Image restoration under adverse weather conditions (e.g., rain, snow and haze) is a fundamental computer vision problem and has important indications for various downstream applications. Different from early methods that are specially designed for specific type of weather, most recent works tend to remove various adverse weather effects simultaneously through either spatial feature representation learning or semantic information embedding. Inspired by the various successful applications of large-scale pre-trained models (e.g, CLIP), in this paper, we explore the potential benefits of them for this task through both spatial feature representation learning and semantic information embedding aspects: 1) for spatial feature representation learning, we design a Spatially-Adaptive Residual (SAR) Encoder to extract degraded areas adaptively. To facilitate its training, we propose a Soft Residual Distillation (CLIP-SRD) strategy to transfer the spatial knowledge from CLIP between clean and adverse weather images; 2) for semantic information embedding, we propose a CLIP Weather Prior (CWP) embedding module to make the network handle different weather conditions adaptively. This module integrates the sample specific weather prior extracted by CLIP image encoder together with the distribution specific information learned by a set of parameters, and embeds them through a cross attention mechanism. Extensive experiments demonstrate that our proposed method can achieve state-of-the-art performance under different and challenging adverse weather conditions. Code will be made available.
updated: Thu Jun 15 2023 10:06:13 GMT+0000 (UTC)
published: Thu Jun 15 2023 10:06:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト