画像レベルのアノテーションのみを使用した弱監視オブジェクト検出(WSOD)は、過去数年間で注目を集めています。このようなタスクは通常、自然画像に焦点を当てたドメイン固有のソリューションで対処されますが、事前トレーニング済みの深い機能に適用された単純な複数インスタンスアプローチは、おそらく新しいクラスを含む非写真データセットで優れたパフォーマンスを発揮することを示します。このアプローチには微調整やクロスドメイン学習は含まれていないため、効率的で、任意のデータセットやクラスに適用できる可能性があります。提案されたアプローチのいくつかのフレーバーを調査します。多層パーセプトロンと多面体分類子を含むものもあります。そのシンプルさにもかかわらず、私たちの方法は、絵画(People-Art、IconArt)、水彩画、クリップアート、コミックなど、一般に入手可能なさまざまなデータセットに対して競争力のある結果を示し、目に見えない視覚的カテゴリをすばやく学習できます。
Weakly supervised object detection (WSOD) using only image-level annotations has attracted a growing attention over the past few years. Whereas such task is typically addressed with a domain-specific solution focused on natural images, we show that a simple multiple instance approach applied on pre-trained deep features yields excellent performances on non-photographic datasets, possibly including new classes. The approach does not include any fine-tuning or cross-domain learning and is therefore efficient and possibly applicable to arbitrary datasets and classes. We investigate several flavors of the proposed approach, some including multi-layers perceptron and polyhedral classifiers. Despite its simplicity, our method shows competitive results on a range of publicly available datasets, including paintings (People-Art, IconArt), watercolors, cliparts and comics and allows to quickly learn unseen visual categories.