画像アニメーションは、ソースIDを変更せずに、運転中のビデオの動きをソース画像内の静的オブジェクトに転送します。最近、教師なしモーション転送で大きな進歩が見られました。ラベル付きデータやグラウンドトゥルースドメインの事前情報は必要ありません。ただし、現在の教師なしアプローチは、ソース画像と駆動画像の間に大きな動きや視点の不一致がある場合でも苦労します。本稿では、このような大きな視点の変化を克服するために有効であることがわかった3つの対策を紹介します。まず、よりきめ細かい運動変形場を実現するために、ソースから運転への運動伝達の進化ダイナミクスをパラメータ化するためにニューラルODEを適用することを提案します。第二に、大きな視点や動きの変化によって引き起こされるオクルージョンを処理するために、ソース画像自体から取得された外観フロー(「自己出現」)を利用します。これは、画像の他の領域から同様の構造を本質的に「借用」して、欠落している画像を修復します。地域。最後に、私たちのフレームワークは、さまざまなモーション状態にもかかわらずソースIDを駆動するのに役立つ追加の参照ビューからの情報を活用することもできます。広範な実験により、私たちのアプローチは、人間の顔、人体からロボット、漫画のキャラクターまでさまざまな6つのベンチマークで、最先端技術を大幅に上回っています(〜40%)。モデルの一般性分析は、私たちのアプローチがさまざまなオブジェクトカテゴリ間でも最もよく一般化することを示しています。
Image animation transfers the motion of a driving video to a static object in a source image, while keeping the source identity unchanged. Great progress has been made in unsupervised motion transfer recently, where no labelled data or ground truth domain priors are needed. However, current unsupervised approaches still struggle when there are large motion or viewpoint discrepancies between the source and driving images. In this paper, we introduce three measures that we found to be effective for overcoming such large viewpoint changes. Firstly, to achieve more fine-grained motion deformation fields, we propose to apply Neural-ODEs for parametrizing the evolution dynamics of the motion transfer from source to driving. Secondly, to handle occlusions caused by large viewpoint and motion changes, we take advantage of the appearance flow obtained from the source image itself ("self-appearance"), which essentially "borrows" similar structures from other regions of an image to inpaint missing regions. Finally, our framework is also able to leverage the information from additional reference views which help to drive the source identity in spite of varying motion state. Extensive experiments demonstrate that our approach outperforms the state-of-the-arts by a significant margin (~40%), across six benchmarks varying from human faces, human bodies to robots and cartoon characters. Model generality analysis indicates that our approach generalises the best across different object categories as well.