現代の深層学習マルチスケールブレ除去モデルには、多くの問題があります。1) 不均一にブレた画像/ビデオではパフォーマンスが低下します。 2) 細かいスケール レベルでモデルの深度を単純に増やすだけでは、ブレ除去は改善されません。 3) 個々の RGB フレームには、ブレ除去のための限られたモーション情報が含まれます。 4) 以前のモデルでは、空間変換とノイズに対するロバスト性が制限されていました。以下では、上記の問題に対処するために、いくつかのメカニズムによって DMPHN モデルを拡張します。階層的なローカライズされた表現; II) ネットワーク深度の増加の下でのブレ除去性能を向上させるために、新しいスタック パイプライン StackMPN を提案します。 III) ビデオに含まれるモーション キューを活用して、ビデオの複雑なブレに対処するためのイベント ガイド型アーキテクチャを提案します。 IV) モデルをランダムな変換 (回転、スケールの変更) にさらし、ガウス ノイズに対してロバストにするための、新しい自己監視ステップを提案します。当社の MPN は、現在のマルチスケール メソッドと比較して 40 倍高速な実行時間で、GoPro および VideoDeblur データセットで最先端を実現します。 1280x720 の解像度で画像を処理するのに 30 ミリ秒かかるため、30 fps で 720p の画像向けの初のリアルタイム ディープ モーション ブレ除去モデルです。 StackMPN の場合、ネットワークの深さを増やすことで、GoPro データセットで 1.2dB を超える大幅な改善が得られます。イベント情報と自己監視を活用することで、結果はさらに 33.83dB に向上します。
Contemporary deep learning multi-scale deblurring models suffer from many issues: 1) They perform poorly on non-uniformly blurred images/videos; 2) Simply increasing the model depth with finer-scale levels cannot improve deblurring; 3) Individual RGB frames contain a limited motion information for deblurring; 4) Previous models have a limited robustness to spatial transformations and noise. Below, we extend the DMPHN model by several mechanisms to address the above issues: I) We present a novel self-supervised event-guided deep hierarchical Multi-patch Network (MPN) to deal with blurry images and videos via fine-to-coarse hierarchical localized representations; II) We propose a novel stacked pipeline, StackMPN, to improve the deblurring performance under the increased network depth; III) We propose an event-guided architecture to exploit motion cues contained in videos to tackle complex blur in videos; IV) We propose a novel self-supervised step to expose the model to random transformations (rotations, scale changes), and make it robust to Gaussian noises. Our MPN achieves the state of the art on the GoPro and VideoDeblur datasets with a 40x faster runtime compared to current multi-scale methods. With 30ms to process an image at 1280x720 resolution, it is the first real-time deep motion deblurring model for 720p images at 30fps. For StackMPN, we obtain significant improvements over 1.2dB on the GoPro dataset by increasing the network depth. Utilizing the event information and self-supervision further boost results to 33.83dB.