単眼3Dモーションキャプチャ(mocap)は、多くのアプリケーションに役立ちます。ただし、単一のカメラを使用すると、さまざまな体の部分のオクルージョンを処理できないことが多く、そのため、比較的単純な動きをキャプチャすることに制限されます。学習と最適化のフレームワークで、わずか4つの慣性計測ユニット(IMU)でカメラを補強する、HybridCapと呼ばれる軽量のハイブリッドモーションキャプチャ技術を紹介します。最初に、手足、体、根のトラッカー、および逆運動学ソルバーとして機能する協調ゲート付き回帰ユニット(GRU)ブロックに基づく、弱教師あり階層型モーション推論モジュールを採用します。私たちのネットワークは、粗いポーズから細かいポーズの推定によって、もっともらしい動きの探索空間を効果的に狭め、困難な動きに高効率で取り組むことができます。さらに、慣性フィードバックと視覚的手がかりを組み合わせて追跡精度を向上させるハイブリッド最適化スキームを開発します。さまざまなデータセットでの広範な実験により、HybridCapは、フィットネスアクションからラテンダンスに至るまでの挑戦的な動きを堅牢に処理できることが実証されています。また、最先端の精度で最大60fpsのリアルタイムパフォーマンスを実現します。
Monocular 3D motion capture (mocap) is beneficial to many applications. The use of a single camera, however, often fails to handle occlusions of different body parts and hence it is limited to capture relatively simple movements. We present a light-weight, hybrid mocap technique called HybridCap that augments the camera with only 4 Inertial Measurement Units (IMUs) in a learning-and-optimization framework. We first employ a weakly-supervised and hierarchical motion inference module based on cooperative Gated Recurrent Unit (GRU) blocks that serve as limb, body and root trackers as well as an inverse kinematics solver. Our network effectively narrows the search space of plausible motions via coarse-to-fine pose estimation and manages to tackle challenging movements with high efficiency. We further develop a hybrid optimization scheme that combines inertial feedback and visual cues to improve tracking accuracy. Extensive experiments on various datasets demonstrate HybridCap can robustly handle challenging movements ranging from fitness actions to Latin dance. It also achieves real-time performance up to 60 fps with state-of-the-art accuracy.