arXiv reaDer
人間と物体の相互作用認識のための時空間相互作用グラフ解析ネットワーク
Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition
特定のビデオベースの人間とオブジェクトの相互作用シーンでは、人間とオブジェクトの間の時空間関係をモデル化することが、ビデオで提示されるコンテキスト情報を理解するための重要な手がかりになります。効果的な時空間関係モデリングにより、各フレームのコンテキスト情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできます。外観の特徴が時間の経過とともに大きな変化を示さない可能性がある場合は、時空間次元での人間とオブジェクトの位置の変化をキャプチャすることがより重要です。外観機能、空間位置、およびセマンティック情報を最大限に活用することも、ビデオベースのヒューマンオブジェクトインタラクション認識パフォーマンスを向上させるための鍵です。この論文では、時空間相互作用グラフ解析ネットワーク(STIGPN)が構築され、人間とオブジェクトのノードで構成されるグラフでビデオをエンコードします。これらのノードは、次の2種類の関係によって接続されます。(i)各フレーム内の人間と相互作用するオブジェクト間の相互作用をモデル化する空間関係。 (ii)フレーム全体で人間と相互作用するオブジェクト間の長距離の依存関係をキャプチャする時間間の関係。グラフを使用して、STIGPNは、ビデオベースのヒューマンオブジェクトインタラクションシーン全体から直接時空間機能を学習します。マルチモーダル機能とマルチストリームフュージョン戦略は、STIGPNの推論機能を強化するために使用されます。 CAD-120とSomething-Elseを含む2つのHuman-ObjectInteractionビデオデータセットを使用して、提案されたアーキテクチャを評価します。最先端のパフォーマンスは、STIGPNの優位性を示しています。
For a given video-based Human-Object Interaction scene, modeling the spatio-temporal relationship between humans and objects are the important cue to understand the contextual information presented in the video. With the effective spatio-temporal relationship modeling, it is possible not only to uncover contextual information in each frame but also to directly capture inter-time dependencies. It is more critical to capture the position changes of human and objects over the spatio-temporal dimension when their appearance features may not show up significant changes over time. The full use of appearance features, the spatial location and the semantic information are also the key to improve the video-based Human-Object Interaction recognition performance. In this paper, Spatio-Temporal Interaction Graph Parsing Networks (STIGPN) are constructed, which encode the videos with a graph composed of human and object nodes. These nodes are connected by two types of relations: (i) spatial relations modeling the interactions between human and the interacted objects within each frame. (ii) inter-time relations capturing the long range dependencies between human and the interacted objects across frame. With the graph, STIGPN learn spatio-temporal features directly from the whole video-based Human-Object Interaction scenes. Multi-modal features and a multi-stream fusion strategy are used to enhance the reasoning capability of STIGPN. Two Human-Object Interaction video datasets, including CAD-120 and Something-Else, are used to evaluate the proposed architectures, and the state-of-the-art performance demonstrates the superiority of STIGPN.
updated: Thu Aug 19 2021 11:57:27 GMT+0000 (UTC)
published: Thu Aug 19 2021 11:57:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト