arXiv reaDer
画像とテキストのマッチングのための2ストリームの階層的類似性推論
Two-stream Hierarchical Similarity Reasoning for Image-text Matching
推論ベースのアプローチは、画像とテキストのマッチングのタスクに対する強力な能力を実証しています。この作業では、画像とテキストのマッチングに関する2つの問題に対処します。第一に、推論処理の場合、従来のアプローチには、マルチレベルの階層的類似性情報を見つけて使用する機能がありません。この問題を解決するために、階層的類似性推論モジュールを提案して、コンテキスト情報を自動的に抽出し、それをローカルの相互作用情報と共同で活用して効率的な推論を行います。第2に、以前のアプローチでは、単一ストリームの類似性アラインメント(つまり、画像からテキストへのレベルまたはテキストから画像へのレベル)の学習のみを考慮しています。これは、画像とテキストのマッチングに類似性情報を完全に使用するには不十分です。この問題に対処するために、画像とテキストのマッチングを画像とテキストのレベルとテキストと画像のレベルの類似性の計算に分解する2つのストリームアーキテクチャが開発されています。これらの2つの問題は、エンドツーエンドの方法でトレーニングされた統合フレームワーク、つまり2ストリームの階層的類似性推論ネットワークによって調査されます。 MSCOCOとFlickr30Kの2つのベンチマークデータセットで実行された広範な実験は、既存の最先端の方法と比較して、提案されたアプローチの優位性を示しています。
Reasoning-based approaches have demonstrated their powerful ability for the task of image-text matching. In this work, two issues are addressed for image-text matching. First, for reasoning processing, conventional approaches have no ability to find and use multi-level hierarchical similarity information. To solve this problem, a hierarchical similarity reasoning module is proposed to automatically extract context information, which is then co-exploited with local interaction information for efficient reasoning. Second, previous approaches only consider learning single-stream similarity alignment (i.e., image-to-text level or text-to-image level), which is inadequate to fully use similarity information for image-text matching. To address this issue, a two-stream architecture is developed to decompose image-text matching into image-to-text level and text-to-image level similarity computation. These two issues are investigated by a unifying framework that is trained in an end-to-end manner, namely two-stream hierarchical similarity reasoning network. The extensive experiments performed on the two benchmark datasets of MSCOCO and Flickr30K show the superiority of the proposed approach as compared to existing state-of-the-art methods.
updated: Thu Mar 10 2022 12:56:10 GMT+0000 (UTC)
published: Thu Mar 10 2022 12:56:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト