arXiv reaDer
3D形状、ポーズ、外観の一貫性を備えた周期的な自己監視を使用して、現実的な人間の休息を学習する
Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D Shape, Pose, and Appearance Consistency
単一の画像から斬新なポーズの人物の画像を合成することは、非常にあいまいな作業です。ほとんどの既存のアプローチでは、ペアのトレーニング画像が必要です。つまり、同じ人物が同じ服を着て、さまざまなポーズをとっている画像です。ただし、ペアのデータを使用して十分に大きなデータセットを取得することは、困難でコストがかかります。ペアの監督を放棄した以前の方法は、リアリズムを欠いています。 SPICE(Self-supervised Person Image CrEation)という名前の自己監視フレームワークを提案します。これは、監視ありの方法で画質のギャップを埋めます。自己監視を可能にする重要な洞察は、人体に関する3D情報をいくつかの方法で活用することです。まず、3Dの体型は、ポーズをとるときに変更しないでおく必要があります。第二に、体のポーズを3Dで表現することで、自己閉塞についての推論が可能になります。第三に、リポーズの前後に見える3Dの体の部分は、同様の外観の特徴を持っている必要があります。トレーニングが完了すると、SPICEは人物の画像を取得し、新しいターゲットポーズでその人物の新しい画像を生成します。 SPICEは、DeepFashionデータセットで最先端のパフォーマンスを実現し、以前の教師なし手法と比較してFIDスコアを29.9から7.8に改善し、最先端の教師あり手法(6.4)と同様のパフォーマンスを実現します。 SPICEは、静止画像のみでトレーニングされているにもかかわらず、入力画像と一連のポーズが与えられると、時間的にコヒーレントなビデオも生成します。
Synthesizing images of a person in novel poses from a single image is a highly ambiguous task. Most existing approaches require paired training images; i.e. images of the same person with the same clothing in different poses. However, obtaining sufficiently large datasets with paired data is challenging and costly. Previous methods that forego paired supervision lack realism. We propose a self-supervised framework named SPICE (Self-supervised Person Image CrEation) that closes the image quality gap with supervised methods. The key insight enabling self-supervision is to exploit 3D information about the human body in several ways. First, the 3D body shape must remain unchanged when reposing. Second, representing body pose in 3D enables reasoning about self occlusions. Third, 3D body parts that are visible before and after reposing, should have similar appearance features. Once trained, SPICE takes an image of a person and generates a new image of that person in a new target pose. SPICE achieves state-of-the-art performance on the DeepFashion dataset, improving the FID score from 29.9 to 7.8 compared with previous unsupervised methods, and with performance similar to the state-of-the-art supervised method (6.4). SPICE also generates temporally coherent videos given an input image and a sequence of poses, despite being trained on static images only.
updated: Mon Oct 11 2021 17:48:50 GMT+0000 (UTC)
published: Mon Oct 11 2021 17:48:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト