視覚と言語のグラウンディングの問題では、画像のきめの細かい表現が最も重要であると考えられています。現在のシステムのほとんどには、画像のスケッチとして視覚的な機能とテキストの概念が組み込まれています。ただし、単純に推論された表現は、それらの関係がとらえどころのない別々のコンポーネントで構成されるため、通常は望ましくありません。この作業では、特定のセマンティクスを反映して、統合された視覚領域と対応するテキストコンセプトのセットで画像を表現することを目指しています。この目的のために、相互反復アテンション(MIA)モジュールを作成します。これは、2つのモダリティを揃えることにより、相関する視覚的特徴とテキストの概念をそれぞれ統合します。 2つの代表的なビジョンと言語のグラウンディングタスク、つまり、画像キャプションと視覚的な質問への回答に関する提案されたアプローチを評価します。両方のタスクで、セマンティックに基づいた画像表現により、ベースラインモデルのパフォーマンスが全体的にすべてのメトリックの下で一貫して向上します。結果は、私たちのアプローチが効果的であり、画像関連アプリケーションの幅広いモデルにうまく一般化されていることを示しています。 (コードはhttps://github.com/fenglinliu98/MIAで入手できます)
In vision-and-language grounding problems, fine-grained representations of the image are considered to be of paramount importance. Most of the current systems incorporate visual features and textual concepts as a sketch of an image. However, plainly inferred representations are usually undesirable in that they are composed of separate components, the relations of which are elusive. In this work, we aim at representing an image with a set of integrated visual regions and corresponding textual concepts, reflecting certain semantics. To this end, we build the Mutual Iterative Attention (MIA) module, which integrates correlated visual features and textual concepts, respectively, by aligning the two modalities. We evaluate the proposed approach on two representative vision-and-language grounding tasks, i.e., image captioning and visual question answering. In both tasks, the semantic-grounded image representations consistently boost the performance of the baseline models under all metrics across the board. The results demonstrate that our approach is effective and generalizes well to a wide range of models for image-related applications. (The code is available at https://github.com/fenglinliu98/MIA)