いくつかのサンプル画像が与えられた漫画のキャラクターの新しいアニメーションを生成するための学習ベースの方法を提案します。私たちの方法は、各フレームがアーティストによって描かれている伝統的なアニメーション化されたシーケンスから学習するように設計されているため、入力画像には共通の構造、対応、ラベルがありません。ポーズの変化をレイヤード2.5Dテンプレートメッシュの変形として表現し、テンプレートをターゲットイメージに一致させるメッシュ変形を予測することを学習する新しいアーキテクチャを考案します。これにより、多様なキャラクターポーズのセットから共通の低次元構造を抽出できます。差別化可能なレンダリングとメッシュ対応モデルの最近の進歩を組み合わせて、トレーニング中に少数のキャラクター画像しか利用できない場合でも、共通のテンプレートを正常に調整します。粗いポーズに加えて、キャラクターの外観は、シェーディング、面外の動き、および芸術的効果によっても異なります。画像変換ネットワークを適用してメッシュレンダリングを改良し、キャラクターの新しいアニメーションを高い視覚品質で生成するエンドツーエンドモデルを提供することにより、これらの微妙な変化をキャプチャします。生成モデルを使用して中間フレームを合成し、データ駆動型の変形を作成できることを示します。テンプレートフィッティング手順は、画像の一致を検出するための最先端の一般的な手法よりも優れています。
We propose a learning based method for generating new animations of a cartoon character given a few example images. Our method is designed to learn from a traditionally animated sequence, where each frame is drawn by an artist, and thus the input images lack any common structure, correspondences, or labels. We express pose changes as a deformation of a layered 2.5D template mesh, and devise a novel architecture that learns to predict mesh deformations matching the template to a target image. This enables us to extract a common low-dimensional structure from a diverse set of character poses. We combine recent advances in differentiable rendering as well as mesh-aware models to successfully align common template even if only a few character images are available during training. In addition to coarse poses, character appearance also varies due to shading, out-of-plane motions, and artistic effects. We capture these subtle changes by applying an image translation network to refine the mesh rendering, providing an end-to-end model to generate new animations of a character with high visual quality. We demonstrate that our generative model can be used to synthesize in-between frames and to create data-driven deformation. Our template fitting procedure outperforms state-of-the-art generic techniques for detecting image correspondences.