カメラを装着した人の体のポーズは、拡張現実、ヘルスケア、ロボット工学のアプリケーションにとって非常に興味深いものですが、典型的なウェアラブルカメラでは人の体のほとんどが見えません。自己中心的なビデオシーケンスからカメラ装着者の3Dボディポーズを推定する学習ベースのアプローチを提案します。私たちの重要な洞察は、他の人との相互作用を利用することです-身体のポーズを直接観察することができます-本質的に、一人称被験者の身体のポーズにリンクされた信号として。個人間の相互作用は、秩序立った一連の前後の応答を誘発することが多いため、一方の当事者がほとんど見えない場合でも、相互にリンクしたポーズの時間モデルを学習することが可能であることを示します。私たちは、ダイアディック相互作用を備えたさまざまなドメインで私たちのアイデアを示し、自己中心の体の姿勢推定に大きな影響を与えることを示します。ビデオ結果はhttp://vision.cs.utexas.edu/projects/you2me/で入手できます。
The body pose of a person wearing a camera is of great interest for applications in augmented reality, healthcare, and robotics, yet much of the person's body is out of view for a typical wearable camera. We propose a learning-based approach to estimate the camera wearer's 3D body pose from egocentric video sequences. Our key insight is to leverage interactions with another person---whose body pose we can directly observe---as a signal inherently linked to the body pose of the first-person subject. We show that since interactions between individuals often induce a well-ordered series of back-and-forth responses, it is possible to learn a temporal model of the interlinked poses even though one party is largely out of view. We demonstrate our idea on a variety of domains with dyadic interaction and show the substantial impact on egocentric body pose estimation, which improves the state of the art. Video results are available at http://vision.cs.utexas.edu/projects/you2me/