arXiv reaDer
(ゼロショット)マルチラベル分類のためのデュアルモダリティアプローチ
A Dual Modality Approach For (Zero-Shot) Multi-Label Classification
コンピューター ビジョンでは、ゼロ ショット マルチラベル分類を含むマルチラベル分類は、多くの実世界のアプリケーションで重要なタスクです。この論文では、マルチラベル分類タスクのために、視覚的特徴とテキスト特徴との間のアライメントを備えたデュアルモーダルデコーダー (DM-decoder) を含む新しいアルゴリズム、Aligned Dual modality ClaSsifier (ADDS) を提案します。さらに、高解像度の入力のパフォーマンスを向上させるために、ピラミッド転送と呼ばれるシンプルで効果的な方法を設計します。標準的なマルチラベル ベンチマーク データセットである MS-COCO および NUS-WIDE で実施された広範な実験は、当社のアプローチが以前の方法よりも大幅に優れており、従来のマルチラベル分類であるゼロ ショット マルチラベルに最先端のパフォーマンスを提供することを示しています。分類、および単一ラベル データセット (ImageNet-1k、ImageNet-21k) でトレーニングされたモデルがマルチラベル データセット (MS-COCO および NUS-WIDE) でテストされる単一ラベル分類と呼ばれる極端なケースです。また、視覚とテキストの配置が提案されたアプローチにどのように寄与するかを分析し、DM デコーダーの重要性を検証し、ビジョン トランスフォーマーに対するピラミッド転送の有効性を実証します。
In computer vision, multi-label classification, including zero-shot multi-label classification are important tasks with many real-world applications. In this paper, we propose a novel algorithm, Aligned Dual moDality ClaSsifier (ADDS), which includes a Dual-Modal decoder (DM-decoder) with alignment between visual and textual features, for multi-label classification tasks. Moreover, we design a simple and yet effective method called Pyramid-Forwarding to enhance the performance for inputs with high resolutions. Extensive experiments conducted on standard multi-label benchmark datasets, MS-COCO and NUS-WIDE, demonstrate that our approach significantly outperforms previous methods and provides state-of-the-art performance for conventional multi-label classification, zero-shot multi-label classification, and an extreme case called single-to-multi label classification where models trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label ones (MS-COCO and NUS-WIDE). We also analyze how visual-textual alignment contributes to the proposed approach, validate the significance of the DM-decoder, and demonstrate the effectiveness of Pyramid-Forwarding on vision transformer.
updated: Fri Aug 19 2022 22:45:07 GMT+0000 (UTC)
published: Fri Aug 19 2022 22:45:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト