arXiv reaDer
視覚言語事前トレーニングのためのシングルストリームマルチレベルアラインメント
Single-Stream Multi-Level Alignment for Vision-Language Pretraining
対照的な損失のある純粋な画像とテキストからの自己教師あり視覚言語の事前トレーニングは効果的ですが、画像とテキストの表現をグローバルレベルでのみ調整するデュアルストリームアーキテクチャのため、きめ細かい調整は無視されます。以前の監視された非対照的な方法は、よりきめ細かい位置合わせが可能でしたが、スケーラブルではない高密度の注釈が必要でした。対称クロスモダリティ再構成(XMM)と疑似ラベル付きキーワード予測という2つの新しいタスクを使用して、画像と言語を複数のレベル(グローバル、きめ細かいパッチトークン、概念/セマンティック)で調整する単一ストリームアーキテクチャを提案します。 (PSL)。 XMMでは、1つのモダリティから入力トークンをマスクし、クロスモーダル情報を使用してマスクされたトークンを再構築します。これにより、2つのモダリティ間のきめ細かい配置が改善されます。 PSLでは、注意を使用してキャプション内のキーワードを選択し、モメンタムエンコーダーを使用して、キャプションにはないが画像に表示されている他の重要なキーワードを推奨し、ビジュアルエンコーダーをトレーニングして、それらのキーワードの存在を予測します。テキストトークンを画像領域に固定するために不可欠なセマンティックの概念を学びます。より大きなモデルやより多くのデータでトレーニングされたモデルに対して、画像テキストの検索、接地、視覚的な質問応答/推論において、競争力のあるパフォーマンスと改善されたデータ効率を示します。コードとモデルはzaidkhan.me/SIMLAで入手できます。
Self-supervised vision-language pretraining from pure images and text with a contrastive loss is effective, but ignores fine-grained alignment due to a dual-stream architecture that aligns image and text representations only on a global level. Earlier, supervised, non-contrastive methods were capable of finer-grained alignment, but required dense annotations that were not scalable. We propose a single stream architecture that aligns images and language at multiple levels: global, fine-grained patch-token, and conceptual/semantic, using two novel tasks: symmetric cross-modality reconstruction (XMM) and a pseudo-labeled key word prediction (PSL). In XMM, we mask input tokens from one modality and use cross-modal information to reconstruct the masked token, thus improving fine-grained alignment between the two modalities. In PSL, we use attention to select keywords in a caption, use a momentum encoder to recommend other important keywords that are missing from the caption but represented in the image, and then train the visual encoder to predict the presence of those keywords, helping it learn semantic concepts that are essential for grounding a textual token to an image region. We demonstrate competitive performance and improved data efficiency on image-text retrieval, grounding, visual question answering/reasoning against larger models and models trained on more data. Code and models available at zaidkhan.me/SIMLA.
updated: Wed Jul 27 2022 20:29:41 GMT+0000 (UTC)
published: Sun Mar 27 2022 21:16:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト