arXiv reaDer
2段階および1段階のHOI検出の利点のマイニング
Mining the Benefits of Two-stage and One-stage HOI Detection
2段階の方法は、数年間、人間と物体の相互作用(HOI)の検出を支配してきました。最近では、1段階のHOI検出方法が普及しています。このホワイトペーパーでは、2段階および1段階の方法の本質的な長所と短所を探ることを目的としています。これを目標として、従来の2段階の方法は、主にポジティブなインタラクティブな人間とオブジェクトのペアの配置に悩まされますが、1段階の方法は、マルチタスク学習、つまりオブジェクト検出との適切なトレードオフを行うのが困難です。および相互作用の分類。したがって、核となる問題は、従来の2種類の方法からエッセンスをどのように取り出してカスを廃棄するかです。この目的のために、我々は、カスケード方式で人体検出と相互作用分類を解きほぐす新しい一段階フレームワークを提案します。詳細には、まず、相互作用分類モジュールまたはヘッドを削除することにより、最先端の1ステージHOI検出器に基づいて人間とオブジェクトのペアのジェネレーターを設計し、次に、比較的分離された相互作用の分類器を設計して、各人間とオブジェクトのペアを分類します。 。提案されたフレームワークの2つのカスケードデコーダーは、1つの特定のタスク、検出、または相互作用の分類に焦点を当てることができます。具体的な実装としては、トランスベースのHOI検出器をベースモデルとして採用しています。新しく導入されたもつれを解くパラダイムは、HICO-Detで9.32%の大幅な相対mAPゲインで、既存の方法を大幅に上回っています。
Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det.
updated: Wed Aug 11 2021 07:38:09 GMT+0000 (UTC)
published: Wed Aug 11 2021 07:38:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト