Tell Me What They're Holding: Weakly-supervised Object Detection with Transferable Knowledge from Human-object Interaction
 この作業では、人間とオブジェクトの相互作用(HOI)からの伝達可能な知識を使用して、多くの例が存在しないまれなクラスに属するオブジェクトを検出するための新しい弱監視オブジェクト検出(WSOD)パラダイムを導入します。 WSODは完全な監視よりも低いパフォーマンスを示しますが、画像の複雑なセマンティクスを強力に監視できる主なコンテキストとして主にHOIに焦点を当てています。したがって、私たちはRRPN(リレーショナル領域提案ネットワーク)と呼ばれる新しいモジュールを提案します。このモジュールは、人間のポーズとアクション動詞のみでオブジェクトの位置を特定する注意マップを出力します。ソースドメインでは、HOIを完全に監視して、オブジェクト検出器とRRPNを完全にトレーニングします。訓練されたRRPNからローカリゼーションマップに関する知識を転送することで、新しいオブジェクト検出器は、ターゲットドメインでボックスアノテーションをバウンドすることなく、HOIの言語的監督が弱い目に見えないオブジェクトを学習できます。 RRPNはアドオンタイプとして設計されているため、オブジェクト検出だけでなく、セマンティックセグメンテーションなどの他のドメインにも適用できます。 HICO-DETデータセットに関する実験結果は、提案された方法が、現在の監視対象オブジェクト検出パラダイムの安価な代替手段になる可能性を示しています。さらに、定性的な結果は、モデルがHICO-DETおよびV-COCOデータセット上の見えないオブジェクトを適切にローカライズできることを示しています。
In this work, we introduce a novel weakly supervised object detection (WSOD) paradigm to detect objects belonging to rare classes that have not many examples using transferable knowledge from human-object interactions (HOI). While WSOD shows lower performance than full supervision, we mainly focus on HOI as the main context which can strongly supervise complex semantics in images. Therefore, we propose a novel module called RRPN (relational region proposal network) which outputs an object-localizing attention map only with human poses and action verbs. In the source domain, we fully train an object detector and the RRPN with full supervision of HOI. With transferred knowledge about localization map from the trained RRPN, a new object detector can learn unseen objects with weak verbal supervision of HOI without bounding box annotations in the target domain. Because the RRPN is designed as an add-on type, we can apply it not only to the object detection but also to other domains such as semantic segmentation. The experimental results on HICO-DET dataset show the possibility that the proposed method can be a cheap alternative for the current supervised object detection paradigm. Moreover, qualitative results demonstrate that our model can properly localize unseen objects on HICO-DET and V-COCO datasets.
updated: Tue Nov 19 2019 08:03:11 GMT+0000 (UTC)
published: Tue Nov 19 2019 08:03:11 GMT+0000 (UTC)
