大規模な画像とテキストのペアからの視覚的およびテキスト表現の事前トレーニングは、多くの下流の視覚言語タスクの標準的なアプローチになりつつあります。トランスフォーマーベースのモデルは、自己教師あり学習タスクのリストを通じて、モード間およびモード内の注意を学習します。この論文では、視覚的およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案します。メインモジュールであるVisualTextual Alignment(VTA)は、GANベースの画像合成と画像キャプションという2つの補助タスクによって支援されます。また、学習した視覚的埋め込みとテキスト埋め込みの類似性を測定する新しい評価指標を提案します。 2つの公開データセット、CUBとMS-COCOでの実験結果は、共同特徴埋め込みスペースでの優れた視覚的およびテキスト表現の配置を示しています。
Pre-training visual and textual representations from large-scale image-text pairs is becoming a standard approach for many downstream vision-language tasks. The transformer-based models learn inter and intra-modal attention through a list of self-supervised learning tasks. This paper proposes LAViTeR, a novel architecture for visual and textual representation learning. The main module, Visual Textual Alignment (VTA) will be assisted by two auxiliary tasks, GAN-based image synthesis and Image Captioning. We also propose a new evaluation metric measuring the similarity between the learnt visual and textual embedding. The experimental results on two public datasets, CUB and MS-COCO, demonstrate superior visual and textual representation alignment in the joint feature embedding space