arXiv reaDer
視覚言語タスクのためのユニモーダルエンコーダを活用するためのマルチモーダル適応蒸留
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks
視覚言語(VL)タスク用のクロスモーダルエンコーダーは、慎重にキュレートされた視覚言語データセットで事前にトレーニングされていることがよくあります。これらのデータセットは1,000万サンプルのオーダーに達しますが、人件費をさらに拡張することは法外です。逆に、ユニモーダルエンコーダは、コストのかからない単純な注釈で事前にトレーニングされており、数億から数十億のスケールを実現します。その結果、ユニモーダルエンコーダーは多くのダウンストリームタスクで最先端(SOTA)を達成しました。ただし、VLタスクに適用する場合は課題が残ります。事前トレーニングデータはクロスモーダルアーキテクチャには最適ではなく、大量の計算リソースを必要とします。さらに、ユニモーダルアーキテクチャには、VLタスクに大きなメリットがあることが実証されているクロスモーダル相互作用がありません。したがって、事前にトレーニングされたユニモーダルエンコーダをVLタスクに最適に活用する方法は、依然として活発な研究分野です。この作業では、計算の複雑さを維持しながら、既存のVLアプローチを強化するVLタスクにユニモーダルビジョンとテキストエンコーダーを活用する方法を提案します。具体的には、事前にトレーニングされたエンコーダからクロスモーダルVLエンコーダに有用な知識を適応的に抽出するマルチモーダル適応蒸留(MAD)を提案します。次に、VLタスクのパフォーマンスに対する微妙な影響をより適切に把握するために、さまざまなデータの制約と条件にわたって、Visual Commonsense Reasoning(VCR)、Visual Entailment(SNLI-VE)、およびVisual Question Answering(VQA)を含む評価プロトコルを導入します。ドメインシフトの。実験は、MADが、VCR、SNLI-VE、およびVQAのローショット、ドメインシフト、および完全に監視された条件で一貫したゲインをもたらし、画像テキストデータで事前トレーニングされた他の単一モデルと比較してVCRでSOTAパフォーマンスを達成することを示しています。最後に、MADは、CLIPの事前トレーニング済みビジョンエンコーダーを利用した並行作業よりも優れています。コードが利用可能になります。
Cross-modal encoders for vision-language (VL) tasks are often pretrained with carefully curated vision-language datasets. While these datasets reach an order of 10 million samples, the labor cost is prohibitive to scale further. Conversely, unimodal encoders are pretrained with simpler annotations that are less cost-prohibitive, achieving scales of hundreds of millions to billions. As a result, unimodal encoders have achieved state-of-art (SOTA) on many downstream tasks. However, challenges remain when applying to VL tasks. The pretraining data is not optimal for cross-modal architectures and requires heavy computational resources. In addition, unimodal architectures lack cross-modal interactions that have demonstrated significant benefits for VL tasks. Therefore, how to best leverage pretrained unimodal encoders for VL tasks is still an area of active research. In this work, we propose a method to leverage unimodal vision and text encoders for VL tasks that augment existing VL approaches while conserving computational complexity. Specifically, we propose Multimodal Adaptive Distillation (MAD), which adaptively distills useful knowledge from pretrained encoders to cross-modal VL encoders. Second, to better capture nuanced impacts on VL task performance, we introduce an evaluation protocol that includes Visual Commonsense Reasoning (VCR), Visual Entailment (SNLI-VE), and Visual Question Answering (VQA), across a variety of data constraints and conditions of domain shift. Experiments demonstrate that MAD leads to consistent gains in the low-shot, domain-shifted, and fully-supervised conditions on VCR, SNLI-VE, and VQA, achieving SOTA performance on VCR compared to other single models pretrained with image-text data. Finally, MAD outperforms concurrent works utilizing pretrained vision encoder from CLIP. Code will be made available.
updated: Fri Apr 22 2022 04:41:04 GMT+0000 (UTC)
published: Fri Apr 22 2022 04:41:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト