さまざまな分野でのマルチモーダル相互作用の普及により、最近、コンピュータービジョンコミュニティでのテキストベースの画像検索に大きな関心が寄せられています。しかし、最先端の技術のほとんどはこの問題を純粋に神経的な方法でモデル化しているため、特に検索要件が不十分で、モデルがインタラクティブな検索プロセスに頼る必要がある場合、大規模カタログの検索に実用的な戦略を組み込むことは困難です質問応答の複数の反復を通じて。これに動機付けられて、キャプション記述が与えられると、大規模カタログからの画像のワンショット検索のための神経記号アプローチを提案します。これを容易にするために、カタログとキャプションをシーングラフとして表現し、検索タスクを学習可能なグラフ一致問題としてモデル化し、REINFORCEアルゴリズムでエンドツーエンドでトレーニングします。さらに、インタラクティブな質問と回答に基づいて、このパイプラインの反復検索フレームワークへの拡張について簡単に説明します。
With the prolification of multimodal interaction in various domains, recently there has been much interest in text based image retrieval in the computer vision community. However most of the state of the art techniques model this problem in a purely neural way, which makes it difficult to incorporate pragmatic strategies in searching a large scale catalog especially when the search requirements are insufficient and the model needs to resort to an interactive retrieval process through multiple iterations of question-answering. Motivated by this, we propose a neural-symbolic approach for a one-shot retrieval of images from a large scale catalog, given the caption description. To facilitate this, we represent the catalog and caption as scene-graphs and model the retrieval task as a learnable graph matching problem, trained end-to-end with a REINFORCE algorithm. Further, we briefly describe an extension of this pipeline to an iterative retrieval framework, based on interactive questioning and answering.