与えられたぼやけた画像入力に対応する一連の鮮明な画像を復元することを目的とした、画像からビデオへのブレ除去のためにモデルをトレーニングするという困難なタスクを検討します。画像からビデオへのモデルのトレーニングを妨げる重大な問題は、フレーム順序のあいまいさです。これは、前方シーケンスと後方シーケンスの両方がもっともらしい解決策であるためです。この論文では、高品質の画像からビデオへのブレ除去モデルのトレーニングを可能にする効果的な自己教師あり順序付けスキームを提案します。順序不変の損失に依存する以前の方法とは異なり、ビデオ シーケンスごとに明示的な順序を割り当てることで、順序のあいまいさの問題を回避します。具体的には、各ビデオ シーケンスを潜在的な高次元空間のベクトルにマッピングし、すべてのビデオ シーケンスに対して、そこから抽出されたベクトルとその逆のシーケンスが超平面の異なる側にあるような超平面が存在するようにします。ベクトルの側は、対応するシーケンスの順序を定義するために使用されます。最後になりましたが、顔、手、通りなど、さまざまな一般的なドメインをカバーする、画像からビデオへのブレ除去問題のための実画像データセットを提案します。広範な実験結果により、この方法の有効性が確認されています。コードとデータは https://github.com/VinAIResearch/HyperCUT.git で入手できます。
We consider the challenging task of training models for image-to-video deblurring, which aims to recover a sequence of sharp images corresponding to a given blurry image input. A critical issue disturbing the training of an image-to-video model is the ambiguity of the frame ordering since both the forward and backward sequences are plausible solutions. This paper proposes an effective self-supervised ordering scheme that allows training high-quality image-to-video deblurring models. Unlike previous methods that rely on order-invariant losses, we assign an explicit order for each video sequence, thus avoiding the order-ambiguity issue. Specifically, we map each video sequence to a vector in a latent high-dimensional space so that there exists a hyperplane such that for every video sequence, the vectors extracted from it and its reversed sequence are on different sides of the hyperplane. The side of the vectors will be used to define the order of the corresponding sequence. Last but not least, we propose a real-image dataset for the image-to-video deblurring problem that covers a variety of popular domains, including face, hand, and street. Extensive experimental results confirm the effectiveness of our method. Code and data are available at https://github.com/VinAIResearch/HyperCUT.git