arXiv reaDer
StacMR:シーンテキスト対応のクロスモーダル検索
StacMR: Scene-Text Aware Cross-Modal Retrieval
クロスモーダル検索の最近のモデルは、いくつか言及すると、シーングラフとオブジェクトの相互作用によって提供される視覚シーンのますます豊富な理解から恩恵を受けています。これにより、画像の視覚的表現とそのキャプションのテキスト表現との間のマッチングが改善されました。それでも、現在の視覚的表現は重要な側面を見落としています。画像に表示されるテキストには、検索に不可欠な情報が含まれている可能性があります。この論文では、最初に、画像にシーンテキストインスタンスが含まれるクロスモーダル検索の探索を可能にする新しいデータセットを提案します。次に、このデータセットを使用して、キャプションからのテキストとビジュアルシーンからのテキストの特殊な表現を使用し、それらを共通に調整する、より優れたシーンテキスト対応のクロスモーダル検索方法など、シーンテキストを活用するいくつかのアプローチについて説明します。埋め込みスペース。広範な実験により、クロスモーダル検索アプローチがシーンテキストの恩恵を受けていることが確認され、さらに調査する価値のある興味深いリサーチクエスチョンが浮き彫りになります。データセットとコードはhttp://europe.naverlabs.com/stacmrで入手できます。
Recent models for cross-modal retrieval have benefited from an increasingly rich understanding of visual scenes, afforded by scene graphs and object interactions to mention a few. This has resulted in an improved matching between the visual representation of an image and the textual representation of its caption. Yet, current visual representations overlook a key aspect: the text appearing in images, which may contain crucial information for retrieval. In this paper, we first propose a new dataset that allows exploration of cross-modal retrieval where images contain scene-text instances. Then, armed with this dataset, we describe several approaches which leverage scene text, including a better scene-text aware cross-modal retrieval method which uses specialized representations for text from the captions and text from the visual scene, and reconcile them in a common embedding space. Extensive experiments confirm that cross-modal retrieval approaches benefit from scene text and highlight interesting research questions worth exploring further. Dataset and code are available at http://europe.naverlabs.com/stacmr
updated: Tue Dec 08 2020 10:04:25 GMT+0000 (UTC)
published: Tue Dec 08 2020 10:04:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト