Deep Contextual Attention for Human-Object Interaction Detection
  人間と物体の相互作用の検出は、より深いシーンの理解に不可欠な視覚的関係検出タスクの重要かつ比較的新しいクラスです。ほとんどの既存のアプローチは、問題をオブジェクトのローカライズと相互作用の認識に分解します。進歩を示していますが、これらのアプローチは人間とオブジェクトの外観にのみ依存し、利用可能なコンテキスト情報を見落としています。人間と物体の相互作用を検出するための文脈的注意フレームワークを提案します。私たちのアプローチは、人間とオブジェクトのインスタンスのコンテキストに応じた外観機能を学習することにより、コンテキストを活用します。提案されたアテンションモジュールは、関連するインスタンス中心のコンテキスト情報を適応的に選択して、人間とオブジェクトの相互作用を含む可能性が高い画像領域を強調表示します。実験は、V-COCO、HICO-DET、およびHCVRDの3つのベンチマークで実行されます。私たちのアプローチは、すべてのデータセットで最先端技術を上回っています。 V-COCOデータセットでは、既存の最良のアプローチと比較して、ロール平均平均精度($ mAP_ {role $)の観点から、この方法では4.4%の相対ゲインを達成しています。
Human-object interaction detection is an important and relatively new class of visual relationship detection tasks, essential for deeper scene understanding. Most existing approaches decompose the problem into object localization and interaction recognition. Despite showing progress, these approaches only rely on the appearances of humans and objects and overlook the available context information, crucial for capturing subtle interactions between them. We propose a contextual attention framework for human-object interaction detection. Our approach leverages context by learning contextually-aware appearance features for human and object instances. The proposed attention module then adaptively selects relevant instance-centric context information to highlight image regions likely to contain human-object interactions. Experiments are performed on three benchmarks: V-COCO, HICO-DET and HCVRD. Our approach outperforms the state-of-the-art on all datasets. On the V-COCO dataset, our method achieves a relative gain of 4.4% in terms of role mean average precision ($mAP_{role$), compared to the existing best approach.
updated: Thu Oct 17 2019 05:44:46 GMT+0000 (UTC)
published: Thu Oct 17 2019 05:44:46 GMT+0000 (UTC)
