Detecting Human-Object Interactions via Functional Generalization
 人間が同様の方法で機能的に類似したオブジェクトと対話するという考えに基づいて、画像内の人間とオブジェクトの対話(HOI)を検出するためのアプローチを提示します。提案されたモデルはシンプルで、データ、人間の視覚的特徴、人間とオブジェクトの相対的な空間的向き、および機能的に類似したオブジェクトが人間との類似した相互作用に参加するという知識を効率的に使用します。アプローチに広範な実験的検証を提供し、HOI検出の最新の結果を示します。 HICO-Detデータセットでは、この方法により、最先端の平均平均精度(mAP)で絶対値2.5%以上のゲインを達成しています。また、私たちのアプローチが、見られるオブジェクト設定でゼロショットHOI検出のパフォーマンスを大幅に向上させることを示しています。さらに、汎用オブジェクト検出器を使用して、モデルが以前は見えなかったオブジェクトを含む相互作用に一般化できることを示します。
We present an approach for detecting human-object interactions (HOIs) in images, based on the idea that humans interact with functionally similar objects in a similar manner. The proposed model is simple and efficiently uses the data, visual features of the human, relative spatial orientation of the human and the object, and the knowledge that functionally similar objects take part in similar interactions with humans. We provide extensive experimental validation for our approach and demonstrate state-of-the-art results for HOI detection. On the HICO-Det dataset our method achieves a gain of over 2.5% absolute points in mean average precision (mAP) over state-of-the-art. We also show that our approach leads to significant performance gains for zero-shot HOI detection in the seen object setting. We further demonstrate that using a generic object detector, our model can generalize to interactions involving previously unseen objects.
updated: Wed Sep 02 2020 06:28:11 GMT+0000 (UTC)
published: Fri Apr 05 2019 17:58:54 GMT+0000 (UTC)
