ビデオでの人間と物体の相互作用(HOI)の認識は、人間の活動を分析するために重要です。視覚的特徴に焦点を当てた既存の作品のほとんどは、通常、現実世界のシナリオではオクルージョンに悩まされています。複数の人や物がHOIに関与している場合、このような問題はさらに複雑になります。人間のポーズやオブジェクトの位置などの幾何学的特徴がHOIを理解するための有意義な情報を提供することを考慮し、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせることを主張し、新しい2レベルの幾何学的特徴情報に基づくグラフ畳み込みネットワーク(2G -GCN)。幾何学的レベルのグラフは、人間とオブジェクトの幾何学的特徴間の相互依存性をモデル化し、融合レベルのグラフは、それらを人間とオブジェクトの視覚的特徴とさらに融合させます。困難なシナリオでの私たちの方法の新規性と有効性を実証するために、新しい複数人のHOIデータセット(MPHOI-72)を提案します。 MPHOI-72(マルチパーソンHOI)、CAD-120(シングルヒューマンHOI)、およびバイマニュアルアクション(両手HOI)データセットに関する広範な実験は、最先端のデータセットと比較して優れたパフォーマンスを示しています。
Human-Object Interaction (HOI) recognition in videos is important for analyzing human activity. Most existing work focusing on visual features usually suffer from occlusion in the real-world scenarios. Such a problem will be further complicated when multiple people and objects are involved in HOIs. Consider that geometric features such as human pose and object position provide meaningful information to understand HOIs, we argue to combine the benefits of both visual and geometric features in HOI recognition, and propose a novel Two-level Geometric feature-informed Graph Convolutional Network (2G-GCN). The geometric-level graph models the interdependency between geometric features of humans and objects, while the fusion-level graph further fuses them with visual features of humans and objects. To demonstrate the novelty and effectiveness of our method in challenging scenarios, we propose a new multi-person HOI dataset (MPHOI-72). Extensive experiments on MPHOI-72 (multi-person HOI), CAD-120 (single-human HOI) and Bimanual Actions (two-hand HOI) datasets demonstrate our superior performance compared to state-of-the-arts.