人間と物体の相互作用(HOI)の検出は、人間と物体の間の相互作用を特定して認識することを目的とした基本的な視覚的タスクです。既存の作品は、人間と物体の視覚的および言語的特徴に焦点を当てています。ただし、画像に存在する高レベルで意味的な関係を利用していません。これにより、HOI推論に重要なコンテキストおよび詳細な関係知識が提供されます。シーングラフを介して、ヒューマンオブジェクトインタラクション(SG2HOI)検出タスクのために、この情報を活用する新しい方法を提案します。私たちの方法であるSG2HOIは、2つの方法でSG情報を組み込みます。(1)シーン固有の環境コンテキストとして機能するグローバルコンテキストの手がかりにシーングラフを埋め込みます。 (2)関係を意識したメッセージパッシングモジュールを構築して、オブジェクトの近隣から関係を収集し、それらをインタラクションに転送します。経験的評価によると、SG2HOIメソッドは、V-COCOとHICO-DETの2つのベンチマークHOIデータセットで最先端のメソッドよりも優れています。コードはhttps://github.com/ht014/SG2HOIで入手できます。
Human-Object Interaction (HOI) detection is a fundamental visual task aiming at localizing and recognizing interactions between humans and objects. Existing works focus on the visual and linguistic features of humans and objects. However, they do not capitalise on the high-level and semantic relationships present in the image, which provides crucial contextual and detailed relational knowledge for HOI inference. We propose a novel method to exploit this information, through the scene graph, for the Human-Object Interaction (SG2HOI) detection task. Our method, SG2HOI, incorporates the SG information in two ways: (1) we embed a scene graph into a global context clue, serving as the scene-specific environmental context; and (2) we build a relation-aware message-passing module to gather relationships from objects' neighborhood and transfer them into interactions. Empirical evaluation shows that our SG2HOI method outperforms the state-of-the-art methods on two benchmark HOI datasets: V-COCO and HICO-DET. Code will be available at https://github.com/ht014/SG2HOI.