arXiv reaDer
Detect-and-Track: Efficient Pose Estimation in Videos
このペーパーでは、複雑な複数人のビデオで人体のキーポイントを推定および追跡する問題に対処します。私たちは、人間の検出とビデオの理解における最新の進歩に基づいた、非常に軽量でありながら非常に効果的なアプローチを提案します。この方法は2段階で動作します。フレームまたは短いクリップでのキーポイント推定と、それに続く軽量トラッキングにより、ビデオ全体にわたってリンクされたキーポイント予測が生成されます。フレームレベルのポーズ推定では、Mask R-CNNと、このモデルの独自の提案された3D拡張を実験します。このモデルは、小さなクリップの時間情報を活用して、より堅牢なフレーム予測を生成します。モデルのさまざまなデザインの選択を検証するために、新しくリリースされたマルチパーソンビデオポーズ推定ベンチマークであるPoseTrackで広範囲に及ぶアブレーション実験を実施します。このアプローチでは、検証で55.2%の精度を達成し、マルチオブジェクトトラッキング精度(MOTA)メトリックを使用したテストセットで51.8%を達成し、ICCV 2017 PoseTrackキーポイントトラッキングチャレンジで最先端のパフォーマンスを達成します。
This paper addresses the problem of estimating and tracking human body keypoints in complex, multi-person video. We propose an extremely lightweight yet highly effective approach that builds upon the latest advancements in human detection and video understanding. Our method operates in two-stages: keypoint estimation in frames or short clips, followed by lightweight tracking to generate keypoint predictions linked over the entire video. For frame-level pose estimation we experiment with Mask R-CNN, as well as our own proposed 3D extension of this model, which leverages temporal information over small clips to generate more robust frame predictions. We conduct extensive ablative experiments on the newly released multi-person video pose estimation benchmark, PoseTrack, to validate various design choices of our model. Our approach achieves an accuracy of 55.2% on the validation and 51.8% on the test set using the Multi-Object Tracking Accuracy (MOTA) metric, and achieves state of the art performance on the ICCV 2017 PoseTrack keypoint tracking challenge.
updated: Wed May 02 2018 18:49:57 GMT+0000 (UTC)
published: Tue Dec 26 2017 05:56:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト