arXiv reaDer
ビデオオートエンコーダ:静的な3D構造と動きの自己監視による解きほぐし
Video Autoencoder: self-supervised disentanglement of static 3D structure and motion
ビデオオートエンコーダは、自己監視方式でビデオから3D構造とカメラポーズの解きほぐされた表現を学習するために提案されています。ビデオの時間的連続性に依存して、私たちの仕事は、近くのビデオフレームの3Dシーン構造が静的なままであることを前提としています。入力として一連のビデオフレームが与えられると、ビデオオートエンコーダは、次のようなシーンのもつれを解いた表現を抽出します。(i)3D構造を表す時間的に一貫した深いボクセル特徴と(ii)それぞれのカメラポーズの3D軌跡フレーム。これらの2つの表現は、入力ビデオフレームをレンダリングするために再エンタングルされます。このビデオオートエンコーダは、グラウンドトゥルース3Dやカメラポーズの注釈なしで、ピクセル再構成損失を使用して直接トレーニングできます。解きほぐされた表現は、新しいビューの合成、カメラのポーズの推定、モーションフォローによるビデオの生成など、さまざまなタスクに適用できます。いくつかの大規模な自然ビデオデータセットでこの方法を評価し、ドメイン外の画像で一般化の結果を示します。
A video autoencoder is proposed for learning disentan- gled representations of 3D structure and camera pose from videos in a self-supervised manner. Relying on temporal continuity in videos, our work assumes that the 3D scene structure in nearby video frames remains static. Given a sequence of video frames as input, the video autoencoder extracts a disentangled representation of the scene includ- ing: (i) a temporally-consistent deep voxel feature to represent the 3D structure and (ii) a 3D trajectory of camera pose for each frame. These two representations will then be re-entangled for rendering the input video frames. This video autoencoder can be trained directly using a pixel reconstruction loss, without any ground truth 3D or camera pose annotations. The disentangled representation can be applied to a range of tasks, including novel view synthesis, camera pose estimation, and video generation by motion following. We evaluate our method on several large- scale natural video datasets, and show generalization results on out-of-domain images.
updated: Wed Oct 06 2021 17:57:42 GMT+0000 (UTC)
published: Wed Oct 06 2021 17:57:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト