人間と物体の相互作用(HOI)を検出するための、シンプルで直感的でありながら強力な方法を提案します。 HOIは画像内の空間分布が非常に多様であるため、既存のCNNベースの方法は次の3つの大きな欠点に直面します。 CNNの局所性のために画像全体の機能を活用できず、機能の集約に手動で定義された関心のある場所に依存します。これは、コンテキスト上重要な領域をカバーしない場合があり、複数のHOIインスタンスの機能を混同せざるを得ません。それらが近くにある場合。これらの欠点を克服するために、注意メカニズムとクエリベースの検出が重要な役割を果たすトランスフォーマーベースの特徴抽出器を提案します。アテンションメカニズムは、コンテキスト上重要な情報を画像全体に集約するのに効果的ですが、各クエリが最大で1つの人間とオブジェクトのペアをキャプチャするように設計されたクエリは、複数のインスタンスからの機能の混同を回避できます。このトランスベースの特徴抽出器は非常に効果的な埋め込みを生成するため、後続の検出ヘッドはかなりシンプルで直感的です。広範な分析により、提案された方法は文脈上重要な特徴をうまく抽出し、したがって既存の方法を大幅に上回っていることを明らかにしています(HICO-DETでは5.37 mAP、V-COCOでは5.7 mAP)。ソースコードはhttps://github.com/hitachi-rd-cv/qpicthishttpsURLで入手できます。
We propose a simple, intuitive yet powerful method for human-object interaction (HOI) detection. HOIs are so diverse in spatial distribution in an image that existing CNN-based methods face the following three major drawbacks; they cannot leverage image-wide features due to CNN's locality, they rely on a manually defined location-of-interest for the feature aggregation, which sometimes does not cover contextually important regions, and they cannot help but mix up the features for multiple HOI instances if they are located closely. To overcome these drawbacks, we propose a transformer-based feature extractor, in which an attention mechanism and query-based detection play key roles. The attention mechanism is effective in aggregating contextually important information image-wide, while the queries, which we design in such a way that each query captures at most one human-object pair, can avoid mixing up the features from multiple instances. This transformer-based feature extractor produces so effective embeddings that the subsequent detection heads may be fairly simple and intuitive. The extensive analysis reveals that the proposed method successfully extracts contextually important features, and thus outperforms existing methods by large margins (5.37 mAP on HICO-DET, and 5.7 mAP on V-COCO). The source codes are available at https://github.com/hitachi-rd-cv/qpicthis https URL.