ビデオから人間のポーズを推定することは、人間とコンピューターの相互作用において重要です。人間のポーズを正確に推定することで、ロボットは人間に適切な応答を提供できます。ほとんどの既存のアプローチでは、オプティカルフロー、RNN、またはCNNを使用して、ビデオから時間的特徴を抽出します。これらの試みの肯定的な結果にもかかわらず、それらのほとんどは、関節間の時間的相関を無視して、時間的次元に沿って特徴を直接統合するだけです。以前の方法とは対照的に、異なるフレームにわたる関節間の時間的相関を明示的にモデル化するために、ドメインクロスアテンションメカニズムに基づくプラグアンドプレイ運動学モデリングモジュール(KMM)を提案します。具体的には、提案されたKMMは、任意の2つの関節間の時間的類似性を計算することにより、それらの間の時間的相関をモデル化します。このようにして、KMMは各関節のモーションキューを学習できます。 KMMは、モーションキュー(時間ドメイン)と関節の履歴位置(空間ドメイン)を使用して、現在のフレーム内の関節の初期位置を事前に推測できます。さらに、ポーズの特徴と関節の初期位置を組み合わせて関節の最終位置を取得するための、KMMに基づく運動学モデリングネットワーク(KIMNet)を紹介します。関節間の時間的相関を明示的にモデル化することにより、KIMNetは、前の瞬間のすべての関節に従って、現在閉塞している関節を推測することができます。さらに、KMMは、機能の高解像度を維持できるようにするアテンションメカニズムによって実現されます。したがって、豊富な履歴ポーズ情報を現在のフレームに転送できます。これにより、閉塞した関節を特定するための効果的なポーズ情報が提供されます。私たちのアプローチは、2つの標準的なビデオベースのポーズ推定ベンチマークで最先端の結果を達成します。さらに、提案されたKIMNetは、オクルージョンに対してある程度のロバスト性を示し、提案された方法の有効性を示しています。
Estimating human poses from videos is critical in human-computer interaction. By precisely estimating human poses, the robot can provide an appropriate response to the human. Most existing approaches use the optical flow, RNNs, or CNNs to extract temporal features from videos. Despite the positive results of these attempts, most of them only straightforwardly integrate features along the temporal dimension, ignoring temporal correlations between joints. In contrast to previous methods, we propose a plug-and-play kinematics modeling module (KMM) based on the domain-cross attention mechanism to model the temporal correlation between joints across different frames explicitly. Specifically, the proposed KMM models the temporal correlation between any two joints by calculating their temporal similarity. In this way, KMM can learn the motion cues of each joint. Using the motion cues (temporal domain) and historical positions of joints (spatial domain), KMM can infer the initial positions of joints in the current frame in advance. In addition, we present a kinematics modeling network (KIMNet) based on the KMM for obtaining the final positions of joints by combining pose features and initial positions of joints. By explicitly modeling temporal correlations between joints, KIMNet can infer the occluded joints at present according to all joints at the previous moment. Furthermore, the KMM is achieved through an attention mechanism, which allows it to maintain the high resolution of features. Therefore, it can transfer rich historical pose information to the current frame, which provides effective pose information for locating occluded joints. Our approach achieves state-of-the-art results on two standard video-based pose estimation benchmarks. Moreover, the proposed KIMNet shows some robustness to the occlusion, demonstrating the effectiveness of the proposed method.