ビデオの複数人ポーズ追跡タスクがフレームごとに予測とポーズマッチングを使用するのに効果的な戦略です。このタイプのアプローチでは、正確な予測が不可能であるため、不確実性を考慮したモデリングが不可欠です。ただし、以前の研究では、予測が信頼できない場合に重大な追跡エラーを引き起こす可能性がある不確実性を組み込むことなく、単一の予測のみに依存していました。このペーパーでは、シーケンシャルモンテカルロ(SMC)を使用したこのアプローチの拡張を提案します。これにより、自然に追跡方式が再定式化され、ポーズの複数の予測(または仮説)が処理されるため、予測エラーの悪影響が軽減されます。 SMCの重要なコンポーネント、つまり提案分布は、認識論的不確実性と不均一分散不確実性不確実性を組み込むことにより、多様で妥当な仮説を提案できる確率的ニューラルポーズ予測子として設計されています。さらに、ニューラルモデリングにリカレントアーキテクチャが導入され、ポーズの時系列情報を利用して、頻繁な消失やポーズの再現などの困難な状況を管理します。既存のベースラインと比較して、提案された方法は、最先端のベースライン方法から追跡エラーの約50%を削減することにより、PoseTrack2018検証データセットで最先端のMOTAスコアを達成します。
It is an effective strategy for the multi-person pose tracking task in videos to employ prediction and pose matching in a frame-by-frame manner. For this type of approach, uncertainty-aware modeling is essential because precise prediction is impossible. However, previous studies have relied on only a single prediction without incorporating uncertainty, which can cause critical tracking errors if the prediction is unreliable. This paper proposes an extension to this approach with Sequential Monte Carlo (SMC). This naturally reformulates the tracking scheme to handle multiple predictions (or hypotheses) of poses, thereby mitigating the negative effect of prediction errors. An important component of SMC, i.e., a proposal distribution, is designed as a probabilistic neural pose predictor, which can propose diverse and plausible hypotheses by incorporating epistemic uncertainty and heteroscedastic aleatoric uncertainty. In addition, a recurrent architecture is introduced to our neural modeling to utilize time-sequence information of poses to manage difficult situations, such as the frequent disappearance and reappearances of poses. Compared to existing baselines, the proposed method achieves a state-of-the-art MOTA score on the PoseTrack2018 validation dataset by reducing approximately 50% of tracking errors from a state-of-the art baseline method.