単一のRGBカメラを使用して、30 fpsを超える多人数3Dモーションキャプチャのリアルタイムアプローチを紹介します。オブジェクトや他の人によるオクルージョンを含む可能性のある一般的なシーンで正常に動作します。私たちの方法は後続の段階で動作します。最初の段階は、すべての個人のすべての目に見える関節のID割り当てとともに2Dおよび3Dポーズ機能を推定する畳み込みニューラルネットワーク(CNN)です。このCNNには、SelecSLS Netと呼ばれる新しいアーキテクチャを提供します。範囲スキップ接続により、情報の流れが改善され、精度を損なうことなくネットワークを大幅に高速化できます。 2番目の段階では、完全に接続されたニューラルネットワークが、各オクルージョンの(オクルージョンのため)可能性のある部分的な2Dposeおよび3Dpose機能を、個人ごとの完全な3Dpose推定に変換します。 3番目のステージでは、時空間骨格モデルフィッティングを被験者ごとの予測2Dおよび3Dポーズに適用して、2Dおよび3Dポーズをさらに調整し、時間的一貫性を適用します。このメソッドは、各被験者の関節角度で完全な骨格ポーズを返します。これは、コヒーレントスケルトンの関節角度の結果をリアルタイムで複数人のシーンに生成しない以前の作業とのさらに重要な違いです。提案されたシステムは、512x320の画像を入力として与えられると、これまで見られなかった30 fpsを超えるスピードでコンシューマーハードウェア上で実行され、最先端の精度を達成します。
We present a real-time approach for multi-person 3D motion capture at over 30 fps using a single RGB camera. It operates successfully in generic scenes which may contain occlusions by objects and by other people. Our method operates in subsequent stages. The first stage is a convolutional neural network (CNN) that estimates 2D and 3D pose features along with identity assignments for all visible joints of all individuals.We contribute a new architecture for this CNN, called SelecSLS Net, that uses novel selective long and short range skip connections to improve the information flow allowing for a drastically faster network without compromising accuracy. In the second stage, a fully connected neural network turns the possibly partial (on account of occlusion) 2Dpose and 3Dpose features for each subject into a complete 3Dpose estimate per individual. The third stage applies space-time skeletal model fitting to the predicted 2D and 3D pose per subject to further reconcile the 2D and 3D pose, and enforce temporal coherence. Our method returns the full skeletal pose in joint angles for each subject. This is a further key distinction from previous work that do not produce joint angle results of a coherent skeleton in real time for multi-person scenes. The proposed system runs on consumer hardware at a previously unseen speed of more than 30 fps given 512x320 images as input while achieving state-of-the-art accuracy, which we will demonstrate on a range of challenging real-world scenes.