arXiv reaDer
CLIP-TD:視覚言語タスクのためのCLIPターゲット蒸留
CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks
対照的な言語画像事前トレーニング(CLIP)は、視覚と言語モダリティを統合された埋め込みスペースにリンクし、視覚言語(VL)タスクの大きな可能性を生み出します。初期の並行作業では、タスクのサブセットでこの可能性の調査が開始されましたが、重要な質問が残っています。1)調査されていないVLタスクでのCLIPの利点は何ですか。 2)CLIPは、ローショットまたはドメインシフトのシナリオでメリットをもたらしますか? 3)CLIPは、推論や事前トレーニングの複雑さに影響を与えることなく、既存のアプローチを改善できますか?この作業では、2つの重要な貢献を通じてこれらの質問に答えることを目指しています。最初に、さまざまなデータ可用性の制約とドメインシフトの条件にわたって、Visual Commonsense Reasoning(VCR)、Visual Entailment(SNLI-VE)、およびVisual Question Answering(VQA)を含む評価プロトコルを紹介します。次に、インスタンスごとに適応的に選択されたトークンに適用される動的に重み付けされた目標を使用して、CLIPから既存のアーキテクチャに知識をインテリジェントに抽出するCLIP Targeted Distillation(CLIP-TD)という名前のアプローチを提案します。実験により、提案されたCLIP-TDは、VCRのローショット(最大51.9%)およびドメインシフト(最大71.3%)条件で並外れた向上をもたらし、同時に標準の完全に監視された条件(最大2%)、画像テキストデータのみで事前トレーニングされた他の単一モデルと比較して、VCRで最先端のパフォーマンスを実現します。 SNLI-VEでは、CLIP-TDは、完全に監視された状態(最大3%)だけでなく、ローショット条件(最大6.6%)でも大幅な向上をもたらします。 VQAでは、CLIP-TDにより、ローショット(最大9%)と完全監視あり(最大1.3%)が向上します。最後に、CLIP-TDは、ベースラインのナイーブ蒸留アプローチだけでなく、微調整にCLIPを利用する並行作業よりも優れています。コードが利用可能になります。
Contrastive language-image pretraining (CLIP) links vision and language modalities into a unified embedding space, yielding the tremendous potential for vision-language (VL) tasks. While early concurrent works have begun to study this potential on a subset of tasks, important questions remain: 1) What is the benefit of CLIP on unstudied VL tasks? 2) Does CLIP provide benefit in low-shot or domain-shifted scenarios? 3) Can CLIP improve existing approaches without impacting inference or pretraining complexity? In this work, we seek to answer these questions through two key contributions. First, we introduce an evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of data availability constraints and conditions of domain shift. Second, we propose an approach, named CLIP Targeted Distillation (CLIP-TD), to intelligently distill knowledge from CLIP into existing architectures using a dynamically weighted objective applied to adaptively selected tokens per instance. Experiments demonstrate that our proposed CLIP-TD leads to exceptional gains in the low-shot (up to 51.9%) and domain-shifted (up to 71.3%) conditions of VCR, while simultaneously improving performance under standard fully-supervised conditions (up to 2%), achieving state-of-art performance on VCR compared to other single models that are pretrained with image-text data only. On SNLI-VE, CLIP-TD produces significant gains in low-shot conditions (up to 6.6%) as well as fully supervised (up to 3%). On VQA, CLIP-TD provides improvement in low-shot (up to 9%), and in fully-supervised (up to 1.3%). Finally, CLIP-TD outperforms concurrent works utilizing CLIP for finetuning, as well as baseline naive distillation approaches. Code will be made available.
updated: Sat Jan 15 2022 01:54:01 GMT+0000 (UTC)
published: Sat Jan 15 2022 01:54:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト