arXiv reaDer
FLAVR:高速フレーム補間のためのフローにとらわれないビデオ表現
FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation
アプローチの大部分は、ビデオの隣接するフレーム間の双方向オプティカルフローを計算し、続いて適切なワーピングアルゴリズムを使用して出力フレームを生成することにより、ビデオフレーム補間の問題を解決します。ただし、オプティカルフローに依存する方法では、オクルージョンや複雑な非線形モーションをビデオから直接モデル化できず、リアルタイム展開に適さない追加のボトルネックが発生することがよくあります。これらの制限を克服するために、3D時空間畳み込みを利用して、ビデオフレーム補間のタスクのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャを提案します。私たちの方法は、非線形運動、複雑なオクルージョン、時間的抽象化について効率的に推論することを学習し、オプティカルフローや深度マップの形式で追加の入力を必要とせずに、ビデオ補間のパフォーマンスを向上させます。その単純さのために、提案された方法は、現在の最も正確な方法と比較して384倍、8倍補間で現在最も速い方法と比較して23倍推論速度を改善します。さらに、さまざまな困難な設定でモデルを評価し、Vimeo-90K、UCF101、DAVIS、Adobe、GoProなどのさまざまな一般的なベンチマークで現在の方法と比較して優れた定性的および定量的結果を一貫して示しています。最後に、ビデオフレーム補間が、行動認識、オプティカルフロー推定、および動きの拡大のための有用な自己監視の口実タスクとして役立つことができることを示します。
A majority of approaches solve the problem of video frame interpolation by computing bidirectional optical flow between adjacent frames of a video followed by a suitable warping algorithm to generate the output frames. However, methods relying on optical flow often fail to model occlusions and complex non-linear motions directly from the video and introduce additional bottlenecks unsuitable for real time deployment. To overcome these limitations, we propose a flexible and efficient architecture that makes use of 3D space-time convolutions to enable end to end learning and inference for the task of video frame interpolation. Our method efficiently learns to reason about non-linear motions, complex occlusions and temporal abstractions resulting in improved performance on video interpolation, while requiring no additional inputs in the form of optical flow or depth maps. Due to its simplicity, our proposed method improves the inference speed by 384x compared to the current most accurate method and 23x compared to the current fastest on 8x interpolation. In addition, we evaluate our model on a wide range of challenging settings and consistently demonstrate superior qualitative and quantitative results compared with current methods on various popular benchmarks including Vimeo-90K, UCF101, DAVIS, Adobe, and GoPro. Finally, we demonstrate that video frame interpolation can serve as a useful self-supervised pretext task for action recognition, optical flow estimation, and motion magnification.
updated: Tue Dec 15 2020 18:59:30 GMT+0000 (UTC)
published: Tue Dec 15 2020 18:59:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト