arXiv reaDer
ビデオにおける人間の姿勢推定のための相互情報ベースの時間差学習
Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video
時間モデリングは、マルチフレームの人間の姿勢推定に不可欠です。ほとんどの既存の方法は、オプティカル フローまたは変形可能な畳み込みを直接使用して、フル スペクトルのモーション フィールドを予測します。これにより、近くの人や背景など、無関係な手がかりが多数発生する可能性があります。意味のあるモーション プリアを発掘するためのさらなる努力がなければ、特に複雑な時空間相互作用では、その結果は最適ではありません。一方、時間差には代表的な動きの情報をエンコードする機能があり、これは潜在的にポーズの推定に役立つ可能性がありますが、十分に活用されていません。この論文では、新しいマルチフレームの人間の姿勢推定フレームワークを提示します。これは、フレーム間の時間差を使用して動的なコンテキストをモデル化し、相互情報を客観的に関与させて、有用なモーション情報のもつれの解消を容易にします。具体的には、多段階の特徴差分シーケンスを条件とするインクリメンタル カスケード学習を実行して有益なモーション表現を導出する、多段階の時間差分エンコーダを設計します。さらに、相互情報の観点から Representation Disentanglement モジュールを提案します。これは、生のモーション機能の有用でノイズの多い構成要素を明示的に定義し、それらの相互情報を最小限に抑えることで、識別可能なタスク関連のモーション信号を把握できます。これらにより、ベンチマーク データセット HiEve の複雑なイベント チャレンジにおける群集ポーズ推定で第 1 位にランクされ、3 つのベンチマーク PoseTrack2017、PoseTrack2018、および PoseTrack21 で最先端のパフォーマンスを達成しました。
Temporal modeling is crucial for multi-frame human pose estimation. Most existing methods directly employ optical flow or deformable convolution to predict full-spectrum motion fields, which might incur numerous irrelevant cues, such as a nearby person or background. Without further efforts to excavate meaningful motion priors, their results are suboptimal, especially in complicated spatiotemporal interactions. On the other hand, the temporal difference has the ability to encode representative motion information which can potentially be valuable for pose estimation but has not been fully exploited. In this paper, we present a novel multi-frame human pose estimation framework, which employs temporal differences across frames to model dynamic contexts and engages mutual information objectively to facilitate useful motion information disentanglement. To be specific, we design a multi-stage Temporal Difference Encoder that performs incremental cascaded learning conditioned on multi-stage feature difference sequences to derive informative motion representation. We further propose a Representation Disentanglement module from the mutual information perspective, which can grasp discriminative task-relevant motion signals by explicitly defining useful and noisy constituents of the raw motion features and minimizing their mutual information. These place us to rank No.1 in the Crowd Pose Estimation in Complex Events Challenge on benchmark dataset HiEve, and achieve state-of-the-art performance on three benchmarks PoseTrack2017, PoseTrack2018, and PoseTrack21.
updated: Wed Mar 15 2023 09:29:03 GMT+0000 (UTC)
published: Wed Mar 15 2023 09:29:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト