私たちは、あるビデオから別のビデオへの人間の行動の監視されていないリターゲティングのタスクを扱います。ターゲットの数フレームしか利用できないという難しい設定を検討します。私たちのアプローチの中心は、入力フレーム構成ポーズ(既製のポーズ推定器で自動的に抽出される)をトランスコードしてターゲットフレームを出力できる条件付き生成モデルです。ただし、衣服や背景のシーンジオメトリによって人間は大きく異なるように見える可能性があるため、ユニバーサルトランスコーダを構築することは困難です。代わりに、ユニバーサルジェネレーターをターゲットの特定の人間と背景に適応させる、またはパーソナライズすることを学びます。そのために、メタラーニングを利用して、オンザフライのパーソナライズのための効果的な戦略を発見します。メタ学習の1つの重要な利点は、パーソナライズされたトランスコーダーが、生成されたフレーム全体に時間的一貫性を自然に適用することです。すべてのフレームには、ターゲットの一貫した衣服と背景のジオメトリが含まれています。私たちは、実際のインターネットビデオと画像で実験し、私たちのアプローチが、タスクに広く使用されているベースラインよりも向上していることを示しています。
We address the task of unsupervised retargeting of human actions from one video to another. We consider the challenging setting where only a few frames of the target is available. The core of our approach is a conditional generative model that can transcode input skeletal poses (automatically extracted with an off-the-shelf pose estimator) to output target frames. However, it is challenging to build a universal transcoder because humans can appear wildly different due to clothing and background scene geometry. Instead, we learn to adapt - or personalize - a universal generator to the particular human and background in the target. To do so, we make use of meta-learning to discover effective strategies for on-the-fly personalization. One significant benefit of meta-learning is that the personalized transcoder naturally enforces temporal coherence across its generated frames; all frames contain consistent clothing and background geometry of the target. We experiment on in-the-wild internet videos and images and show our approach improves over widely-used baselines for the task.