Relationship-Embedded Representation Learning for Grounding Referring Expressions
 画像内の参照式のグラウンディングは、参照式によって記述された画像内のオブジェクトインスタンスを特定することを目的としています。自然言語と画像コンテンツの共同理解を伴い、人間とコンピュータの相互作用に関連する一連の視覚タスクに不可欠です。言語とビジョンのマッチングタスクとして、この問題の核心は、画像と参照式の両方で必要なすべての情報(オブジェクトとオブジェクト間の関係)を抽出するだけでなく、コンテキスト情報を最大限に活用することです。抽出された情報内でクロスモーダルのセマンティック概念を整列させるため。残念ながら、参照式のグラウンディングに関する既存の作業では、参照式から複数次数の関係を正確に抽出して、画像内のオブジェクトおよびそれらの関連コンテキストに関連付けることができません。この論文では、クロスモーダル関係抽出器(CMRE)を提案し、クロスモーダル注意メカニズムを使用して、指定された式に関連するオブジェクトと関係(空間的および意味的関係)を適応的に強調表示し、抽出された情報を言語ガイドとして表す視覚的関係グラフ。さらに、異なるモードからの情報を融合し、構造化された関係グラフでマルチモーダル情報を伝播することにより、マルチモーダルセマンティックコンテキストを計算するゲートグラフ畳み込みネットワーク(GGCN)を提案します。 3つの一般的なベンチマークデータセットの実験結果は、CMREとGGCNで構成されるクロスモーダル関係推論ネットワークが、既存のすべての最先端の方法を大幅に上回っていることを示しています。コードはで入手できます
Grounding referring expressions in images aims to locate the object instance in an image described by a referring expression. It involves a joint understanding of natural language and image content, and is essential for a range of visual tasks related to human-computer interaction. As a language-to-vision matching task, the core of this problem is to not only extract all the necessary information (i.e., objects and the relationships among them) in both the image and referring expression, but also make full use of context information to align cross-modal semantic concepts in the extracted information. Unfortunately, existing work on grounding referring expressions fails to accurately extract multi-order relationships from the referring expression and associate them with the objects and their related contexts in the image. In this paper, we propose a Cross-Modal Relationship Extractor (CMRE) to adaptively highlight objects and relationships (spatial and semantic relations) related to the given expression with a cross-modal attention mechanism, and represent the extracted information as a language-guided visual relation graph. In addition, we propose a Gated Graph Convolutional Network (GGCN) to compute multimodal semantic contexts by fusing information from different modes and propagating multimodal information in the structured relation graph. Experimental results on three common benchmark datasets show that our Cross-Modal Relationship Inference Network, which consists of CMRE and GGCN, significantly surpasses all existing state-of-the-art methods. Code is available at
updated: Sun Apr 19 2020 11:04:35 GMT+0000 (UTC)
published: Tue Jun 11 2019 09:47:26 GMT+0000 (UTC)
