arXiv reaDer
オプティカルフローのないビデオフレーム間生成のための可逆U-Net
The Invertible U-Net for Optical-Flow-free Video Interframe Generation
ビデオフレーム補間は、時間軸に沿って2つの隣接するフレーム間にインターフェイスを作成するタスクです。したがって、2つの隣接するフレームを単純に平均化して中間画像を作成するのではなく、この操作は隣接するフレームとのセマンティック連続性を維持する必要があります。従来の方法のほとんどはオプティカルフローを使用しており、オクルージョン処理やオブジェクトスムージングなどのさまざまなツールが不可欠です。これらのさまざまなツールを使用すると複雑な問題が発生するため、問題のあるオプティカルフローを使用せずにビデオフレーム間生成の問題に取り組むことを試みました。これを可能にするために、可逆構造のディープニューラルネットワークの使用を試み、修正された正規化フローである可逆U-Netを開発しました。さらに、フレーム間の意味的な時間的一貫性を維持するために、潜在空間での新しい一貫性の喪失を伴う学習方法を提案します。生成された画像の解像度は、可逆ネットワークを使用することにより、元の画像の解像度と同じであることが保証されます。さらに、生成モデルのようなランダムな画像ではないため、当社のネットワークはちらつきのない安定した出力を保証します。実験を通じて、提案されたアルゴリズムの実現可能性を確認し、ビデオフレーム補間におけるベースラインの新しい可能性として可逆U-Netを提案したいと思います。この論文は、ビデオ補間にオプティカルフローの代わりに可逆ネットワークを使用する世界初の試みであるという点で意味があります。
Video frame interpolation is the task of creating an interface between two adjacent frames along the time axis. So, instead of simply averaging two adjacent frames to create an intermediate image, this operation should maintain semantic continuity with the adjacent frames. Most conventional methods use optical flow, and various tools such as occlusion handling and object smoothing are indispensable. Since the use of these various tools leads to complex problems, we tried to tackle the video interframe generation problem without using problematic optical flow. To enable this, we have tried to use a deep neural network with an invertible structure and developed an invertible U-Net which is a modified normalizing flow. In addition, we propose a learning method with a new consistency loss in the latent space to maintain semantic temporal consistency between frames. The resolution of the generated image is guaranteed to be identical to that of the original images by using an invertible network. Furthermore, as it is not a random image like the ones by generative models, our network guarantees stable outputs without flicker. Through experiments, we confirmed the feasibility of the proposed algorithm and would like to suggest invertible U-Net as a new possibility for baseline in video frame interpolation. This paper is meaningful in that it is the worlds first attempt to use invertible networks instead of optical flows for video interpolation.
updated: Wed Mar 17 2021 11:37:10 GMT+0000 (UTC)
published: Wed Mar 17 2021 11:37:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト