自然なシーンの画像テキスト検索は、人気のある研究トピックです。画像とテキストは異種のクロスモーダルデータであるため、主要な課題の1つは、マルチモーダルデータを表現するための包括的かつ統一された表現を学習する方法です。自然なシーン画像には、主に2種類の視覚概念、オブジェクトとそれらの関係が含まれます。これらは、画像とテキストの検索に等しく不可欠です。したがって、適切な表現はそれらの両方を説明する必要があります。複雑な自然シーンを記述するための多くのCVおよびNLPタスクでのシーングラフの最近の成功に照らして、視覚シーングラフ(VSG)とテキストシーングラフ(TSG)の2種類のシーングラフで画像とテキストを表現することを提案しますそのうち、対応するモダリティのオブジェクトと関係を共同で特徴付けるために悪用されます。画像とテキストの検索タスクは、当然、クロスモーダルシーングラフマッチングとして定式化されます。具体的には、VSGとTSGのモデルで2つの特定のシーングラフエンコーダーを設計します。これにより、近隣情報を集約することにより、グラフ上の各ノードの表現を改良できます。その結果、オブジェクトレベルとリレーションシップレベルの両方のクロスモーダル機能を取得できます。これにより、2つのレベルの画像とテキストの類似性をより妥当な方法で評価できます。 Flickr30kおよびMSCOCOで最先端の結果を達成します。これにより、画像テキスト検索のグラフマッチングベースのアプローチの利点が検証されます。
Image-text retrieval of natural scenes has been a popular research topic. Since image and text are heterogeneous cross-modal data, one of the key challenges is how to learn comprehensive yet unified representations to express the multi-modal data. A natural scene image mainly involves two kinds of visual concepts, objects and their relationships, which are equally essential to image-text retrieval. Therefore, a good representation should account for both of them. In the light of recent success of scene graph in many CV and NLP tasks for describing complex natural scenes, we propose to represent image and text with two kinds of scene graphs: visual scene graph (VSG) and textual scene graph (TSG), each of which is exploited to jointly characterize objects and relationships in the corresponding modality. The image-text retrieval task is then naturally formulated as cross-modal scene graph matching. Specifically, we design two particular scene graph encoders in our model for VSG and TSG, which can refine the representation of each node on the graph by aggregating neighborhood information. As a result, both object-level and relationship-level cross-modal features can be obtained, which favorably enables us to evaluate the similarity of image and text in the two levels in a more plausible way. We achieve state-of-the-art results on Flickr30k and MSCOCO, which verifies the advantages of our graph matching based approach for image-text retrieval.