arXiv reaDer
事前誘導バイレベル表現学習による弱教師付き HOI 検出
Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning
ヒューマン オブジェクト インタラクション (HOI) 検出は、人間中心のシーンの理解において重要な役割を果たし、多くの視覚タスクの基本的な構成要素として機能します。 HOI 検出のための一般化可能でスケーラブルな戦略の 1 つは、弱い監視を使用して、画像レベルの注釈のみから学習することです。これは、あいまいな人間とオブジェクトの関連付け、HOI を検出するための大きな検索スペース、および非常にノイズの多いトレーニング信号のために、本質的に困難です。これらの課題に対処するための有望な戦略は、大規模な事前トレーニング済みモデル (CLIP など) からの知識を活用することですが、知識を直接抽出する戦略 (liao2022gen) は、教師が弱い設定ではうまく機能しません。対照的に、画像レベルと HOI インスタンス レベルの両方で事前知識を組み込むことができる CLIP ガイド付き HOI 表現を開発し、誤った人間とオブジェクトの関連付けを排除するための独学のメカニズムを採用します。 HICO-DET と V-COCO の実験結果は、私たちの方法が以前の研究よりもかなり優れていることを示しており、HOI 表現の有効性を示しています。
Human object interaction (HOI) detection plays a crucial role in human-centric scene understanding and serves as a fundamental building-block for many vision tasks. One generalizable and scalable strategy for HOI detection is to use weak supervision, learning from image-level annotations only. This is inherently challenging due to ambiguous human-object associations, large search space of detecting HOIs and highly noisy training signal. A promising strategy to address those challenges is to exploit knowledge from large-scale pretrained models (e.g., CLIP), but a direct knowledge distillation strategy~liao2022gen does not perform well on the weakly-supervised setting. In contrast, we develop a CLIP-guided HOI representation capable of incorporating the prior knowledge at both image level and HOI instance level, and adopt a self-taught mechanism to prune incorrect human-object associations. Experimental results on HICO-DET and V-COCO show that our method outperforms the previous works by a sizable margin, showing the efficacy of our HOI representation.
updated: Thu Mar 02 2023 14:41:31 GMT+0000 (UTC)
published: Thu Mar 02 2023 14:41:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト