arXiv reaDer
3D人間の姿勢推定のための単眼ビデオの教師なし学習
Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation
注釈付きデータが存在する場合、人間の深い姿勢推定ネットワークは印象的なパフォーマンスを生み出します。それにもかかわらず、特に実際の状況では、新しいデータに注釈を付けるのは非常に時間がかかります。ここでは、対照的な自己教師あり(CSS)学習を活用して、シングルビュービデオから豊富な潜在ベクトルを抽出することでこれに対処します。他のCSSアプローチのように、近くのフレームの潜在的な特徴を正のペアとして扱い、時間的に離れたフレームの潜在的な特徴を負のペアとして扱うのではなく、各潜在的なベクトルを時変成分と時不変成分に明示的に解きほぐします。次に、CSSを時変特徴にのみ適用すると同時に、入力を再構築し、近くの特徴と離れた特徴の間の段階的な移行を促進することで、人間の姿勢推定に適した豊かな潜在空間が得られることを示します。私たちのアプローチは、他の教師なしシングルビュー手法よりも優れており、マルチビュー手法のパフォーマンスに匹敵します。
In the presence of annotated data, deep human pose estimation networks yield impressive performance. Nevertheless, annotating new data is extremely time-consuming, particularly in real-world conditions. Here, we address this by leveraging contrastive self-supervised (CSS) learning to extract rich latent vectors from single-view videos. Instead of simply treating the latent features of nearby frames as positive pairs and those of temporally-distant ones as negative pairs as in other CSS approaches, we explicitly disentangle each latent vector into a time-variant component and a time-invariant one. We then show that applying CSS only to the time-variant features, while also reconstructing the input and encouraging a gradual transition between nearby and away features, yields a rich latent space, well-suited for human pose estimation. Our approach outperforms other unsupervised single-view methods and matches the performance of multi-view techniques.
updated: Thu Mar 25 2021 18:17:03 GMT+0000 (UTC)
published: Wed Dec 02 2020 20:27:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト