arXiv reaDer
画像テキスト検索のための学習可能なピラーベースの再ランキング
Learnable Pillar-based Re-ranking for Image-Text Retrieval
画像とテキストの検索は、モダリティのギャップを埋め、セマンティックの類似性に基づいてクロスモーダル コンテンツを取得することを目的としています。以前の研究では通常、ペアワイズ関係 (つまり、データ サンプルが別のデータ サンプルと一致するかどうか) に焦点が当てられますが、高次の隣接関係 (つまり、複数のデータ サンプル間で構造が一致するかどうか) は無視されます。人気のある後処理のプラクティスである再ランキングは、単一モダリティの検索タスクで近隣関係をキャプチャすることの優位性を明らかにしました。ただし、既存の再ランキング アルゴリズムを画像テキスト検索に直接拡張することは効果的ではありません。この論文では、一般化、柔軟性、スパース性、非対称性の 4 つの観点から理由を分析し、新しい学習可能な柱ベースの再ランキング パラダイムを提案します。具体的には、最初に最上位のモーダル内およびモーダル間近隣を柱として選択し、次にそれらと柱の間の近隣関係を使用してデータ サンプルを再構築します。このようにして、各サンプルは、類似性のみを使用してマルチモーダル ピラー スペースにマッピングされ、一般化が保証されます。その後、近隣認識グラフ推論モジュールを設計して、関係を柔軟に利用し、近隣内のまばらな肯定的なアイテムを発掘します。また、クロスモーダルコラボレーションを促進し、非対称モダリティを整列させるための構造整列制約も提示します。さまざまな基本バックボーンに加えて、Flickr30K と MS-COCO という 2 つのベンチマーク データセットで広範な実験を行い、提案した再ランキング パラダイムの有効性、優位性、一般化、および転送可能性を実証します。
Image-text retrieval aims to bridge the modality gap and retrieve cross-modal content based on semantic similarities. Prior work usually focuses on the pairwise relations (i.e., whether a data sample matches another) but ignores the higher-order neighbor relations (i.e., a matching structure among multiple data samples). Re-ranking, a popular post-processing practice, has revealed the superiority of capturing neighbor relations in single-modality retrieval tasks. However, it is ineffective to directly extend existing re-ranking algorithms to image-text retrieval. In this paper, we analyze the reason from four perspectives, i.e., generalization, flexibility, sparsity, and asymmetry, and propose a novel learnable pillar-based re-ranking paradigm. Concretely, we first select top-ranked intra- and inter-modal neighbors as pillars, and then reconstruct data samples with the neighbor relations between them and the pillars. In this way, each sample can be mapped into a multimodal pillar space only using similarities, ensuring generalization. After that, we design a neighbor-aware graph reasoning module to flexibly exploit the relations and excavate the sparse positive items within a neighborhood. We also present a structure alignment constraint to promote cross-modal collaboration and align the asymmetric modalities. On top of various base backbones, we carry out extensive experiments on two benchmark datasets, i.e., Flickr30K and MS-COCO, demonstrating the effectiveness, superiority, generalization, and transferability of our proposed re-ranking paradigm.
updated: Tue Apr 25 2023 04:33:27 GMT+0000 (UTC)
published: Tue Apr 25 2023 04:33:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト