arXiv reaDer
VDSM:状態空間モデリングと専門家の深い混合による教師なしビデオの解きほぐし
VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts
解きほぐされた表現は、因果推論、生成モデリング、公正な機械学習など、さまざまなダウンストリームタスクをサポートします。残念ながら、解きほぐしは、監督または誘導バイアスを組み込むことなしには不可能であることが示されています。監視はしばしば費用がかかるか、取得するのが不可能であることを考えると、構造的誘導バイアスを組み込み、監視されていない、ビデオ解きほぐしのための深い状態空間モデル(VDSM)を提示することを選択します。モデルは、動的事前確率とMixture of Expertsデコーダーを備えた階層構造を組み込むことにより、潜在的な時変および動的要因を解きほぐします。 VDSMは、ビデオ内のオブジェクトまたは人物のIDと、実行されているアクションについて、個別の解きほぐされた表現を学習します。アイデンティティとダイナミクスの転送、シーケンス生成、フレシェ開始距離、因子分類など、さまざまな定性的および定量的タスクにわたってVDSMを評価します。 VDSMは、最先端のパフォーマンスを提供し、方法が追加の監視を使用する場合でも、敵対的な方法を上回ります。
Disentangled representations support a range of downstream tasks including causal reasoning, generative modeling, and fair machine learning. Unfortunately, disentanglement has been shown to be impossible without the incorporation of supervision or inductive bias. Given that supervision is often expensive or infeasible to acquire, we choose to incorporate structural inductive bias and present an unsupervised, deep State-Space-Model for Video Disentanglement (VDSM). The model disentangles latent time-varying and dynamic factors via the incorporation of hierarchical structure with a dynamic prior and a Mixture of Experts decoder. VDSM learns separate disentangled representations for the identity of the object or person in the video, and for the action being performed. We evaluate VDSM across a range of qualitative and quantitative tasks including identity and dynamics transfer, sequence generation, Fréchet Inception Distance, and factor classification. VDSM provides state-of-the-art performance and exceeds adversarial methods, even when the methods use additional supervision.
updated: Wed Dec 15 2021 09:25:17 GMT+0000 (UTC)
published: Fri Mar 12 2021 14:05:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト