arXiv reaDer
インタラクティブな画像からビデオへの合成のためのオブジェクトダイナミクスを理解する
Understanding Object Dynamics for Interactive Image-to-Video Synthesis
静的なシーンをローカルで突くとどのような影響がありますか?ピクセルレベルでのローカル操作によって引き起こされる自然に見えるグローバルアーティキュレーションを学習するアプローチを提示します。トレーニングには、動く物体のビデオのみが必要であり、物理的なシーンの基本的な操作に関する情報は必要ありません。私たちの生成モデルは、ユーザーの相互作用への応答として自然なオブジェクトのダイナミクスを推測することを学び、異なるオブジェクトの体の領域間の相互関係について学びます。オブジェクトの静止画像とピクセルのローカルポーキングが与えられると、アプローチはオブジェクトが時間の経過とともにどのように変形するかを予測します。ビデオ予測に関する既存の作業とは対照的に、任意のリアルなビデオを合成するのではなく、変形のローカルインタラクティブ制御を可能にします。私たちのモデルは特定のオブジェクトカテゴリに制限されておらず、ダイナミクスを新しい見えないオブジェクトインスタンスに転送できます。さまざまなオブジェクトに関する広範な実験により、一般的なビデオ予測フレームワークと比較したアプローチの有効性が実証されています。プロジェクトページはhttps://bit.ly/3cxfA2Lで入手できます。
What would be the effect of locally poking a static scene? We present an approach that learns naturally-looking global articulations caused by a local manipulation at a pixel level. Training requires only videos of moving objects but no information of the underlying manipulation of the physical scene. Our generative model learns to infer natural object dynamics as a response to user interaction and learns about the interrelations between different object body regions. Given a static image of an object and a local poking of a pixel, the approach then predicts how the object would deform over time. In contrast to existing work on video prediction, we do not synthesize arbitrary realistic videos but enable local interactive control of the deformation. Our model is not restricted to particular object categories and can transfer dynamics onto novel unseen object instances. Extensive experiments on diverse objects demonstrate the effectiveness of our approach compared to common video prediction frameworks. Project page is available at https://bit.ly/3cxfA2L .
updated: Mon Jun 21 2021 17:57:39 GMT+0000 (UTC)
published: Mon Jun 21 2021 17:57:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト