Transformer モデルは視覚と言語のタスクで成功を収めていますが、膨大なデータから暗黙のうちに知識を学習することが多く、構造化された入力データを直接利用することはできません。一方、事前情報を統合するグラフ ニューラル ネットワーク (GNN) などの構造化学習アプローチは、Transformer モデルとほとんど競合できません。この作業では、両方の世界から利益を得て、複数のモダリティにわたって推論を実行する必要がある質問応答タスク用の新しいマルチモーダル グラフ トランスフォーマーを提案することを目指しています。テキストとビジュアルデータから取得したマルチモーダルグラフ情報を有効な事前評価としてバニラの自己注意に組み込むために、グラフに関与するプラグアンドプレイの準注意メカニズムを導入します。具体的には、テキスト グラフ、密領域グラフ、セマンティック グラフを構築して隣接行列を生成し、それらを入力ビジョンと言語機能で構成して、下流の推論を実行します。グラフ情報を使用して自己注意を規則化するこのような方法は、推論能力を大幅に向上させ、さまざまなモダリティからの機能を整列させるのに役立ちます。 GQA、VQAv2、および MultiModalQA データセットの Transformer ベースラインに対する Multimodal Graph Transformer の有効性を検証します。
Despite the success of Transformer models in vision and language tasks, they often learn knowledge from enormous data implicitly and cannot utilize structured input data directly. On the other hand, structured learning approaches such as graph neural networks (GNNs) that integrate prior information can barely compete with Transformer models. In this work, we aim to benefit from both worlds and propose a novel Multimodal Graph Transformer for question answering tasks that requires performing reasoning across multiple modalities. We introduce a graph-involved plug-and-play quasi-attention mechanism to incorporate multimodal graph information, acquired from text and visual data, to the vanilla self-attention as effective prior. In particular, we construct the text graph, dense region graph, and semantic graph to generate adjacency matrices, and then compose them with input vision and language features to perform downstream reasoning. Such a way of regularizing self-attention with graph information significantly improves the inferring ability and helps align features from different modalities. We validate the effectiveness of Multimodal Graph Transformer over its Transformer baselines on GQA, VQAv2, and MultiModalQA datasets.