静止画像でもっともらしいテクスチャを強制するために畳み込みネットワークアーキテクチャを活用する最近の「Deep Image Prior」(DIP)に基づいて、失われた外観と動き(オプティカルフロー)情報を同時に幻覚化する新しいビデオ修復アルゴリズムを提案します。 DIPをビデオに拡張するには、2つの重要な貢献をします。最初に、アプリオリなトレーニングなしで一貫したビデオ修復が可能であることを示します。ビジュアルデータの外部コーパスに依存することなく、内部(ビデオ内)学習に基づいた修復への生成的アプローチを使用して、一般的なビデオの大規模な空間のための万能モデルをトレーニングします。第二に、これらの補完的なモダリティを活用して相互の一貫性を確保しながら、このようなフレームワークが外観とフローの両方を共同生成できることを示します。各ビデオに固有の外観統計を活用することで、長期的な一貫性という困難な問題を処理しながら、視覚的にもっともらしい結果を得ることができます。
We propose a novel video inpainting algorithm that simultaneously hallucinates missing appearance and motion (optical flow) information, building upon the recent 'Deep Image Prior' (DIP) that exploits convolutional network architectures to enforce plausible texture in static images. In extending DIP to video we make two important contributions. First, we show that coherent video inpainting is possible without a priori training. We take a generative approach to inpainting based on internal (within-video) learning without reliance upon an external corpus of visual data to train a one-size-fits-all model for the large space of general videos. Second, we show that such a framework can jointly generate both appearance and flow, whilst exploiting these complementary modalities to ensure mutual consistency. We show that leveraging appearance statistics specific to each video achieves visually plausible results whilst handling the challenging problem of long-term consistency.