arXiv reaDer
Learning Temporal Pose Estimation from Sparsely-Labeled Videos
 ビデオでの複数人物のポーズ推定の最新のアプローチでは、大量の高密度の注釈が必要です。ただし、ビデオのすべてのフレームにラベルを付けるには、費用がかかり、労働集約的です。密な注釈の必要性を減らすために、疎な注釈(kフレームごと)のあるトレーニングビデオを活用して、密な時間的ポーズの伝播と推定の実行を学習するPoseWarperネットワークを提案します。ビデオフレームのペア(ラベル付きフレームAとラベルなしフレームB)が与えられた場合、フレームBの特徴を使用して、フレームAの人間のポーズを予測するモデルをトレーニングします。 AおよびB。トレーニング済みのPoseWarperをいくつかのアプリケーションに活用できることを実証します。まず、推論時に、手動で注釈を付けたフレームからラベルのないフレームにポーズ情報を伝達するために、ネットワークの適用方向を逆にすることができます。これにより、手動でラベル付けされたいくつかのフレームのみを指定して、ビデオ全体のポーズ注釈を生成できます。オプティカルフローに基づく最新のラベル伝播方法と比較して、ワーピングメカニズムははるかにコンパクト(6M対39Mパラメーター)であり、より正確です(88.7%mAP対83.8%mAP)。また、伝播されたポーズを元の手動ラベルに追加して得られた拡張データセットでトレーニングすることで、ポーズ推定器の精度を向上できることも示しています。最後に、PoseWarperを使用して、推論中に隣接フレームから一時的なポーズ情報を集約できます。これにより、システムはPoseTrack2017およびPoseTrack2018データセットで最新のポーズ検出結果を取得できます。コードはで入手できます。
Modern approaches for multi-person pose estimation in video require large amounts of dense annotations. However, labeling every frame in a video is costly and labor intensive. To reduce the need for dense annotations, we propose a PoseWarper network that leverages training videos with sparse annotations (every k frames) to learn to perform dense temporal pose propagation and estimation. Given a pair of video frames---a labeled Frame A and an unlabeled Frame B---we train our model to predict human pose in Frame A using the features from Frame B by means of deformable convolutions to implicitly learn the pose warping between A and B. We demonstrate that we can leverage our trained PoseWarper for several applications. First, at inference time we can reverse the application direction of our network in order to propagate pose information from manually annotated frames to unlabeled frames. This makes it possible to generate pose annotations for the entire video given only a few manually-labeled frames. Compared to modern label propagation methods based on optical flow, our warping mechanism is much more compact (6M vs 39M parameters), and also more accurate (88.7% mAP vs 83.8% mAP). We also show that we can improve the accuracy of a pose estimator by training it on an augmented dataset obtained by adding our propagated poses to the original manual labels. Lastly, we can use our PoseWarper to aggregate temporal pose information from neighboring frames during inference. This allows our system to achieve state-of-the-art pose detection results on the PoseTrack2017 and PoseTrack2018 datasets. Code has been made available at:
updated: Wed Dec 11 2019 07:39:26 GMT+0000 (UTC)
published: Thu Jun 06 2019 21:24:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト