最近、パラメータ効率の高い方法で事前トレーニングされた言語モデル(PLM)を調整することが、自然言語処理の分野で人気のあるトピックになっています。ただし、それらのほとんどは、テキストのみの情報を使用してPLMを調整することに重点を置いています。この作業では、キャプション生成用の画像を使用して凍結PLMを調整するための新しい視点を提案します。この方法をI-Tuningと呼びます。これは、画像から視覚情報を自動的にフィルタリングして、PLMの出力非表示状態を調整できます。画像キャプションタスク(MSCOCOおよびFlickr30kキャプション)を評価すると、私たちの方法は、2〜4倍のトレーニング可能なパラメーターを持ち、および/または大量のクロスモーダル事前トレーニングデータを消費する以前のモデルと同等またはそれ以上のパフォーマンスを達成します。
Recently, tuning the pre-trained language model (PLM) in a parameter-efficient manner becomes a popular topic in the natural language processing area. However, most of them focus on tuning the PLM with the text-only information. In this work, we propose a new perspective to tune the frozen PLM with images for caption generation. We denote our method as I-Tuning, which can automatically filter the vision information from images to adjust the output hidden states of PLM. Evaluating on the image captioning tasks (MSCOCO and Flickr30k Captioning), our method achieves comparable or even better performance than the previous models which have 2-4 times more trainable parameters and/or consume a large amount of cross-modal pre-training data.