arXiv reaDer
アクション認識のための人間と物体の相互作用コンテキストの抽出
Distillation of Human-Object Interaction Contexts for Action Recognition
時空間関係のモデリングは、特に人間がオブジェクトと相互作用しているときに人間の行動を認識するために不可欠ですが、複数のオブジェクトは時間の経過とともに人間の周りに異なって表示されます。ほとんどの既存のアクション認識モデルは、シーンの全体的な視覚的手がかりの学習に焦点を当てていますが、人間とオブジェクトの関係や相互作用を学習することでキャプチャできる、有益で詳細な機能は無視しています。この論文では、ローカルコンテキストとグローバルコンテキストの相互作用を利用して、人間とオブジェクトの関係を学習します。したがって、我々はグローバル-ローカル相互作用蒸留ネットワーク(GLIDN)を提案し、きめ細かいシーン理解のための知識蒸留を介して空間と時間を通して人間と物体の相互作用を学習します。 GLIDNは、人間とオブジェクトをグラフノードにエンコードし、グラフ注意ネットワークを介してローカルおよびグローバルな関係を学習します。ローカルコンテキストグラフは、特定のタイムステップでの共起をキャプチャすることにより、フレームレベルで人間とオブジェクトの関係を学習します。グローバルリレーショングラフは、人間とオブジェクトの相互作用のビデオレベルに基づいて作成され、ビデオシーケンス全体での長期的な関係を識別します。さらに重要なことは、これらのグラフからの知識を、人間と物体の相互作用(HOI)の認識を改善するために対応するものにどのように抽出できるかを調査することです。シャレードとCAD-120データセットを含む2つのデータセットで包括的な実験を行うことにより、モデルを評価します。ベースラインや対応するアプローチよりも優れた結果を達成しました。
Modeling spatial-temporal relations is imperative for recognizing human actions, especially when a human is interacting with objects, while multiple objects appear around the human differently over time. Most existing action recognition models focus on learning overall visual cues of a scene but disregard informative fine-grained features, which can be captured by learning human-object relationships and interactions. In this paper, we learn human-object relationships by exploiting the interaction of their local and global contexts. We hence propose the Global-Local Interaction Distillation Network (GLIDN), learning human and object interactions through space and time via knowledge distillation for fine-grained scene understanding. GLIDN encodes humans and objects into graph nodes and learns local and global relations via graph attention network. The local context graphs learn the relation between humans and objects at a frame level by capturing their co-occurrence at a specific time step. The global relation graph is constructed based on the video-level of human and object interactions, identifying their long-term relations throughout a video sequence. More importantly, we investigate how knowledge from these graphs can be distilled to their counterparts for improving human-object interaction (HOI) recognition. We evaluate our model by conducting comprehensive experiments on two datasets including Charades and CAD-120 datasets. We have achieved better results than the baselines and counterpart approaches.
updated: Fri Dec 17 2021 11:39:44 GMT+0000 (UTC)
published: Fri Dec 17 2021 11:39:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト