arXiv reaDer
画像テキスト検索のためのマルチグレイン監視を形成するためのフレーズレベルのセマンティックラベルの構築
Constructing Phrase-level Semantic Labels to Form Multi-Grained Supervision for Image-Text Retrieval
画像テキスト検索に関する既存の研究は、クエリ画像の一致した文と不一致の文を区別するために、主に文レベルの監視に依存しています。ただし、画像と文の間の意味の不一致は、通常、より細かい粒度、つまりフレーズレベルで発生します。この論文では、テキスト内の不一致の単位をより適切に識別するために、追加のフレーズレベルの監視を導入することを検討します。実際には、マルチグレインセマンティックラベルは、文レベルとフレーズレベルの両方でクエリ画像に対して自動的に作成されます。一致した文のテキストシーングラフを作成し、フレーズレベルのラベルとしてエンティティとトリプルを抽出します。文レベルと句レベルの両方の監視を統合するために、マルチモーダル表現学習のためのセマンティック構造認識マルチモーダルトランスフォーマー(SSAMT)を提案します。 SSAMTの内部では、さまざまな種類の注意メカニズムを利用して、視覚と言語の両側でマルチグレインセマンティックユニットの相互作用を強制します。トレーニングでは、グローバルとローカルの両方の観点からマルチスケールのマッチング損失を提案し、不一致のフレーズにペナルティを課します。 MS-COCOとFlickr30Kの実験結果は、いくつかの最先端モデルと比較して、私たちのアプローチの有効性を示しています。
Existing research for image text retrieval mainly relies on sentence-level supervision to distinguish matched and mismatched sentences for a query image. However, semantic mismatch between an image and sentences usually happens in finer grain, i.e., phrase level. In this paper, we explore to introduce additional phrase-level supervision for the better identification of mismatched units in the text. In practice, multi-grained semantic labels are automatically constructed for a query image in both sentence-level and phrase-level. We construct text scene graphs for the matched sentences and extract entities and triples as the phrase-level labels. In order to integrate both supervision of sentence-level and phrase-level, we propose Semantic Structure Aware Multimodal Transformer (SSAMT) for multi-modal representation learning. Inside the SSAMT, we utilize different kinds of attention mechanisms to enforce interactions of multi-grain semantic units in both sides of vision and language. For the training, we propose multi-scale matching losses from both global and local perspectives, and penalize mismatched phrases. Experimental results on MS-COCO and Flickr30K show the effectiveness of our approach compared to some state-of-the-art models.
updated: Sun Sep 12 2021 14:21:15 GMT+0000 (UTC)
published: Sun Sep 12 2021 14:21:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト