コンピュータビジョンの生成モデルの分野における進歩にもかかわらず、ビデオの安定化には、純粋な回帰的な深層学習ベースの定式化がまだ欠けています。ディープビデオスタビライザーは、一般に、遠近法は似ているがモーションが異なるビデオのペアを含むデータセットがないため、明示的なモーション推定モジュールを使用して作成されます。したがって、このタスクの深層学習アプローチでは、潜在的な安定化フレームのピクセルレベルの合成が困難であり、不安定なフレームを安定化されたフレームに間接的に変換するためのモーション推定モジュールに頼り、フレーム境界付近の視覚コンテンツが失われます。 。この作業では、視点が似ているが動きが異なるトレーニングビデオのペアを含む新しいデータセットを使用して、この複雑すぎるビデオ安定化の定式化を整理し、モーションブラインドフルフレームビデオ安定化を正常に学習することでその有効性を検証することを目指しています。厳密に従来の生成技術を採用し、カリキュラム学習に触発された敵対的訓練戦略を通じて安定性をさらに向上させます。広範な実験を通じて、最先端のビデオ安定化アプローチへの提案されたアプローチの定量的および定性的な利点を示します。さらに、私たちの方法は、現在利用可能な最速のビデオ安定化方法の約3倍の速度向上を実現します。
Despite the advances in the field of generative models in computer vision, video stabilization still lacks a pure regressive deep-learning-based formulation. Deep video stabilization is generally formulated with the help of explicit motion estimation modules due to the lack of a dataset containing pairs of videos with similar perspective but different motion. Therefore, the deep learning approaches for this task have difficulties in the pixel-level synthesis of latent stabilized frames, and resort to motion estimation modules for indirect transformations of the unstable frames to stabilized frames, leading to the loss of visual content near the frame boundaries. In this work, we aim to declutter this over-complicated formulation of video stabilization with the help of a novel dataset that contains pairs of training videos with similar perspective but different motion, and verify its effectiveness by successfully learning motion blind full-frame video stabilization through employing strictly conventional generative techniques and further improve the stability through a curriculum-learning inspired adversarial training strategy. Through extensive experimentation, we show the quantitative and qualitative advantages of the proposed approach to the state-of-the-art video stabilization approaches. Moreover, our method achieves ∼3× speed-up over the currently available fastest video stabilization methods.