事前トレーニング済み言語モデル (PLM) は、マルチメディア研究においてますます大きな役割を果たしています。ビジョン言語 (VL) タスクに関しては、多くの場合、言語エンコーダーとして機能しますが、依然として VL 推論のために追加のフュージョン ネットワークが必要なため、過剰なメモリ オーバーヘッドが発生します。このペーパーでは、VL 推論タスクのスタンドアロン モデルとしての PLM の探索に焦点を当てます。最近人気のプロンプト チューニングにヒントを得て、処理された視覚的特徴も PLM の意味空間に投影でき、単一モーダル学習とマルチモーダル学習の間のギャップを埋めるプロンプト トークンとして機能することを最初に証明します。ただし、このソリューションは視覚情報とモデル推論に明らかな冗長性を示しており、プロンプト トークンの配置も最終的なパフォーマンスに大きく影響します。これらの観察に基づいて、ダイナミック ビジュアル プロンプティング (DVP) と呼ばれる、PLM 用の新しい転移学習アプローチをさらに提案します。具体的には、DVP はまずクロスアテンション モジュールを展開してテキスト関連のコンパクトなビジュアル プロンプト トークンを取得し、それによって PLM の入力長を大幅に削減します。最適な配置を取得するために、DVP には強化学習ベースの検索アルゴリズムも装備されており、非常に短い検索プロセスで DVP をさまざまな VL タスクの PLM と自動的にマージできます。さらに、VL タスクに適応する際に PLM のほとんどのパラメーターをそのまま維持するために、最近人気のあるアダプター アプローチを使用した DVP も実験し、PLM がシングルモーダル タスクとマルチモーダル タスクの間で迅速に移行できるように支援します。私たちは DVP を 2 つの代表的な PLM、つまり BERT と T5 に適用し、VQA2.0、GQA、SNLIVE を含む一連の VL 推論ベンチマークで広範な実験を実施します。実験結果は、効率とパフォーマンスにおける DVP の利点を示すだけでなく、事前トレーニングされた言語モデルを VL タスクに適応させる際の DVP の優位性も確認します。
Pre-trained language models (PLMs) have played an increasing role in multimedia research. In terms of vision-language (VL) tasks, they often serve as a language encoder and still require an additional fusion network for VL reasoning, resulting in excessive memory overhead. In this paper, we focus on exploring PLMs as a stand-alone model for VL reasoning tasks. Inspired by the recently popular prompt tuning, we first prove that the processed visual features can be also projected onto the semantic space of PLMs and act as prompt tokens to bridge the gap between single- and multi-modal learning. However, this solution exhibits obvious redundancy in visual information and model inference, and the placement of prompt tokens also greatly affects the final performance. Based on these observations, we further propose a novel transfer learning approach for PLMs, termed Dynamic Visual Prompting (DVP). Concretely, DVP first deploys a cross-attention module to obtain text-related and compact visual prompt tokens, thereby greatly reducing the input length of PLMs. To obtain the optimal placement, we also equip DVP with a reinforcement-learning based search algorithm, which can automatically merge DVP with PLMs for different VL tasks via a very short search process. In addition, we also experiment DVP with the recently popular adapter approach to keep the most parameters of PLMs intact when adapting to VL tasks, helping PLMs achieve a quick shift between single- and multi-modal tasks. We apply DVP to two representative PLMs, namely BERT and T5, and conduct extensive experiments on a set of VL reasoning benchmarks including VQA2.0, GQA and SNLIVE. The experimental results not only show the advantage of DVP on efficiency and performance, but also confirm its superiority in adapting pre-trained language models to VL tasks.