arXiv reaDer
DualCoOp:注釈が制限されたマルチラベル認識への迅速な適応
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations
低ラベルレジームで画像のマルチラベル認識(MLR)を解決することは、多くの実際のアプリケーションでは困難な作業です。最近の研究では、不十分な画像ラベルを補うためにテキストスペースとビジュアルスペースの配置を学習していますが、使用可能なMLR注釈の量が限られているため、精度が低下しています。この作業では、数百万の補助画像とテキストのペアで事前トレーニングされたテキストと視覚の機能の強力な配置を利用し、部分ラベルMLRとゼロショットMLRの統合フレームワークとしてデュアルコンテキスト最適化(DualCoOp)を提案します。 DualCoOpは、言語入力(つまりプロンプト)の一部として、クラス名を使用してポジティブコンテキストとネガティブコンテキストをエンコードします。 DualCoOpは、事前にトレーニングされた視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドを導入するだけなので、注釈が制限され、クラスが見えないマルチラベル認識タスクにすばやく適応できます。 2つの挑戦的な低ラベル設定にわたる標準的なマルチラベル認識ベンチマークの実験は、最先端の方法に対する私たちのアプローチの利点を示しています。
Solving multi-label recognition (MLR) for images in the low-label regime is a challenging task with many real-world applications. Recent work learns an alignment between textual and visual spaces to compensate for insufficient image labels, but loses accuracy because of the limited amount of available MLR annotations. In this work, we utilize the strong alignment of textual and visual features pretrained with millions of auxiliary image-text pairs and propose Dual Context Optimization (DualCoOp) as a unified framework for partial-label MLR and zero-shot MLR. DualCoOp encodes positive and negative contexts with class names as part of the linguistic input (i.e. prompts). Since DualCoOp only introduces a very light learnable overhead upon the pretrained vision-language framework, it can quickly adapt to multi-label recognition tasks that have limited annotations and even unseen classes. Experiments on standard multi-label recognition benchmarks across two challenging low-label settings demonstrate the advantages of our approach over state-of-the-art methods.
updated: Mon Jun 20 2022 02:36:54 GMT+0000 (UTC)
published: Mon Jun 20 2022 02:36:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト