視覚的意味埋め込みは、視覚的質問応答(VQA)、画像テキスト検索、画像キャプション、シーングラフ生成などのさまざまなタスクに役立つため、興味深い研究トピックです。本論文では、文をクエリとして使用するゼロショット画像検索に焦点を当て、この分野の技術動向の調査を提示します。まず、画像とテキストのマッチングに関する初期の研究と、テクノロジーが時間の経過とともにどのように進化してきたかについての議論から始めて、テクノロジーの歴史の包括的な概要を提供します。さらに、実験で一般的に使用されるデータセットの説明と、各方法の評価結果の比較が示されています。また、実験の精度を確認し、さらに改善するためにgithubで利用可能な実装を紹介します。この調査論文が、研究者が画像と言語の橋渡しに関する研究をさらに発展させることを奨励することを願っています。
Visual-semantic embedding is an interesting research topic because it is useful for various tasks, such as visual question answering (VQA), image-text retrieval, image captioning, and scene graph generation. In this paper, we focus on zero-shot image retrieval using sentences as queries and present a survey of the technological trends in this area. First, we provide a comprehensive overview of the history of the technology, starting with a discussion of the early studies of image-to-text matching and how the technology has evolved over time. In addition, a description of the datasets commonly used in experiments and a comparison of the evaluation results of each method are presented. We also introduce the implementation available on github for use in confirming the accuracy of experiments and for further improvement. We hope that this survey paper will encourage researchers to further develop their research on bridging images and languages.