画像とテキストのマッチングは、ビジョンと言語の領域を橋渡しする最新の研究トピックです。現在の画像の表現は、通常、対応するテキストキャプションのようにグローバルなセマンティックコンセプトを欠いているため、困難なままです。この問題に対処するために、シーンの主要なオブジェクトとセマンティックな概念をキャプチャする視覚的表現を生成するためのシンプルで解釈可能な推論モデルを提案します。具体的には、最初に画像領域間の接続を構築し、Graph Convolutional Networksで推論を実行して、意味関係を持つ機能を生成します。次に、ゲートおよびメモリメカニズムを使用して、これらの関係強化機能でグローバルな意味論的推論を実行し、識別情報を選択し、シーン全体の表現を徐々に生成することを提案します。実験により、この方法がMS-COCOおよびFlickr30Kデータセットでのイメージテキストマッチングの新しい最先端を達成していることが検証されます。 MS-COCO(1Kテストセットを使用したRecall @ 1)では、画像検索で6.8%、キャプション検索で4.8%だけ現在の最良の方法よりも優れています。 Flickr30Kで、このモデルは画像検索を12.6%相対的に、キャプション検索を5.8%相対的に改善します(Recall @ 1)。コードはhttps://github.com/KunpengLi1994/VSRNで入手できます。
Image-text matching has been a hot research topic bridging the vision and language areas. It remains challenging because the current representation of image usually lacks global semantic concepts as in its corresponding text caption. To address this issue, we propose a simple and interpretable reasoning model to generate visual representation that captures key objects and semantic concepts of a scene. Specifically, we first build up connections between image regions and perform reasoning with Graph Convolutional Networks to generate features with semantic relationships. Then, we propose to use the gate and memory mechanism to perform global semantic reasoning on these relationship-enhanced features, select the discriminative information and gradually generate the representation for the whole scene. Experiments validate that our method achieves a new state-of-the-art for the image-text matching on MS-COCO and Flickr30K datasets. It outperforms the current best method by 6.8% relatively for image retrieval and 4.8% relatively for caption retrieval on MS-COCO (Recall@1 using 1K test set). On Flickr30K, our model improves image retrieval by 12.6% relatively and caption retrieval by 5.8% relatively (Recall@1). Our code is available at https://github.com/KunpengLi1994/VSRN.