Video Reenactment as Inductive Bias for Content-Motion Disentanglement
ビデオからモーションとコンテンツを解きほぐすために、自己監視型モーション転送VAEモデルを紹介します。ビデオのコンテンツモーションの解きほぐしに関する以前の作業とは異なり、チャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用します。私たちのモデルは、独立してモデル化でき、時間的な一貫性を維持できるチャンクごとの表現を生成します。したがって、1回のフォワードパスでビデオ全体を再構築します。 ELBOの対数尤度項を拡張し、モーション機能を交換すると2つのビデオ間で再現が発生するという仮定の下で、モーションの解きほぐしを活用するための誘導バイアスとしてブラインド再現損失を含めます。最近提案された解きほぐしメトリックでモデルをテストし、ビデオモーションコンテンツの解きほぐしのさまざまな方法よりも優れていることを示します。ビデオの再現に関する実験は、モデルが再構成の品質とモーションアラインメントのベースラインを上回っている入力空間での解きほぐしの有効性を示しています。
We introduce a self-supervised motion-transfer VAE model to disentangle motion and content from video. Unlike previous work regarding content-motion disentanglement in videos, we adopt a chunk-wise modeling approach and take advantage of the motion information contained in spatiotemporal neighborhoods. Our model yields per-chunk representations that can be modeled independently and preserve temporal consistency. Hence, we reconstruct whole videos in a single forward-pass. We extend the ELBO's log-likelihood term and include a Blind Reenactment Loss as inductive bias to leverage motion disentanglement, under the assumption that swapping motion features yields reenactment between two videos. We test our model on recently-proposed disentanglement metrics, and show that it outperforms a variety of methods for video motion-content disentanglement. Experiments on video reenactment show the effectiveness of our disentanglement in the input space where our model outperforms the baselines in reconstruction quality and motion alignment.
updated: Fri May 07 2021 20:26:05 GMT+0000 (UTC)
published: Sat Jan 30 2021 22:07:43 GMT+0000 (UTC)
