連続するフレームで変化する不要な障害物要素(雨、雪、モアレパターンなど)を除去するための新しいゼロショットマルチフレーム画像復元方法を提案します。これには、トランスフォーマーの事前トレーニング、ゼロショットの復元、およびハードパッチの改良の3つの段階があります。事前にトレーニングされたトランスフォーマーを使用して、モデルは実際の画像情報と妨害要素の間の動きの違いを知ることができます。ゼロショット画像の復元のために、SiamTransと呼ばれる新しいモデルを設計します。これは、シャムのトランスフォーマー、エンコーダー、およびデコーダーによって構築されます。各トランスフォーマーには、複数のフレームの時間的情報と空間的情報の両方をキャプチャするために、時間的注意層といくつかの自己注意層があります。 SiamTransは、ノイズ除去タスクについて事前にトレーニング(自己監視)されているだけで、3つの異なる低レベルの視覚タスク(ドレイン、デモイアリング、および脱雪)でテストされます。関連する方法と比較して、教師あり学習を使用した方法よりも優れたパフォーマンスを実現します。
We propose a novel zero-shot multi-frame image restoration method for removing unwanted obstruction elements (such as rains, snow, and moire patterns) that vary in successive frames. It has three stages: transformer pre-training, zero-shot restoration, and hard patch refinement. Using the pre-trained transformers, our model is able to tell the motion difference between the true image information and the obstructing elements. For zero-shot image restoration, we design a novel model, termed SiamTrans, which is constructed by Siamese transformers, encoders, and decoders. Each transformer has a temporal attention layer and several self-attention layers, to capture both temporal and spatial information of multiple frames. Only pre-trained (self-supervised) on the denoising task, SiamTrans is tested on three different low-level vision tasks (deraining, demoireing, and desnowing). Compared with related methods, ours achieves the best performances, even outperforming those with supervised learning.