Self-supervised Multi-view Person Association and Its Applications
 複数の移動カメラからの複雑なグループアクティビティに参加している人々の信頼性の高いマーカーレスモーショントラッキングは、頻繁なオクルージョン、強い視点と外観の変化、非同期ビデオストリームのために困難です。この問題を解決するには、遠くの視点と時間的インスタンスにわたって同じ人物を確実に関連付けることが不可欠です。モーショントラッキング、相互排除制約、マルチビュージオメトリを利用して、一般的な人物の外観記述子をラベルなしの動画に適応させるための自己監視フレームワークを提示します。適応された識別記述子は、追跡によるクラスタリングの定式化で使用されます。 WILDTRACK [14]での記述子学習の有効性と、「野生の」最大60人の複数のカメラでキャプチャされた3つの新しい複雑なソーシャルシーンを検証します。アソシエーションの精度(18%まで)の大幅な改善と、ベースラインに対する安定した一貫した3D人間の骨格追跡(5〜10回)を報告します。再構築された3Dスケルトンを使用して、入力ビデオをマルチアングルビデオにカットし、指定された人物の画像が最もよく見える正面カメラから表示されます。私たちのアルゴリズムは、人間間のオクルージョンを検出して、アクションのフローを適切に維持しながら、カメラの切り替えの瞬間を決定します。
Reliable markerless motion tracking of people participating in a complex group activity from multiple moving cameras is challenging due to frequent occlusions, strong viewpoint and appearance variations, and asynchronous video streams. To solve this problem, reliable association of the same person across distant viewpoints and temporal instances is essential. We present a self-supervised framework to adapt a generic person appearance descriptor to the unlabeled videos by exploiting motion tracking, mutual exclusion constraints, and multi-view geometry. The adapted discriminative descriptor is used in a tracking-by-clustering formulation. We validate the effectiveness of our descriptor learning on WILDTRACK [14] and three new complex social scenes captured by multiple cameras with up to 60 people "in the wild". We report significant improvement in association accuracy (up to 18%) and stable and coherent 3D human skeleton tracking (5 to 10 times) over the baseline. Using the reconstructed 3D skeletons, we cut the input videos into a multi-angle video where the image of a specified person is shown from the best visible front-facing camera. Our algorithm detects inter-human occlusion to determine the camera switching moment while still maintaining the flow of the action well.
updated: Sat Apr 18 2020 06:16:40 GMT+0000 (UTC)
published: Tue May 22 2018 16:25:26 GMT+0000 (UTC)
