この作業では、テキストレス ビジョン言語トランスフォーマー (TVLT) を提示します。同種のトランスフォーマー ブロックは、最小限のモダリティ固有の設計で視覚と言語の表現を学習するための生の視覚と音声の入力を取得し、そのようなテキスト固有のモジュールを使用しません。トークン化または自動音声認識 (ASR) として。 TVLT は、連続したビデオ フレームとオーディオ スペクトログラム (マスクされたオートエンコーディング) のマスクされたパッチを再構築し、ビデオとオーディオを調整するための対照的なモデリングによってトレーニングされます。 TVLT は、視覚的な質問応答、画像検索、ビデオ検索、マルチモーダル感情分析などのさまざまなマルチモーダル タスクで、テキストベースの対応物に匹敵するパフォーマンスを達成し、推論速度は 28 倍速く、パラメータはわずか 1/3 です。私たちの調査結果は、テキストの事前の存在を前提とせずに、低レベルの視覚信号と音声信号からコンパクトで効率的な視覚言語表現を学習する可能性を示唆しています。私たちのコードとチェックポイントは、https://github.com/zinengtang/TVLT で入手できます。
In this work, we present the Textless Vision-Language Transformer (TVLT), where homogeneous transformer blocks take raw visual and audio inputs for vision-and-language representation learning with minimal modality-specific design, and do not use text-specific modules such as tokenization or automatic speech recognition (ASR). TVLT is trained by reconstructing masked patches of continuous video frames and audio spectrograms (masked autoencoding) and contrastive modeling to align video and audio. TVLT attains performance comparable to its text-based counterpart on various multimodal tasks, such as visual question answering, image retrieval, video retrieval, and multimodal sentiment analysis, with 28x faster inference speed and only 1/3 of the parameters. Our findings suggest the possibility of learning compact and efficient visual-linguistic representations from low-level visual and audio signals without assuming the prior existence of text. Our code and checkpoints are available at: https://github.com/zinengtang/TVLT