arXiv reaDer
視覚的意味埋め込みのための最良のプーリング戦略を学ぶ
Learning the Best Pooling Strategy for Visual Semantic Embedding
Visual Semantic Embedding(VSE)は、視覚データがセマンティックテキストラベルまたは説明の近くに埋め込まれるように、深い埋め込みスペースを学習することを目的とした、視覚言語検索の主要なアプローチです。最近のVSEモデルは、複雑な方法を使用して、マルチモーダル機能をより適切にコンテキスト化し、全体的な埋め込みに集約します。ただし、驚くほど単純な(ただし慎重に選択された)グローバルプーリング関数(最大プーリングなど)は、さまざまな特徴抽出機能全体で、これらの複雑なモデルよりも優れていることがわかりました。その単純さと有効性にもかかわらず、さまざまなデータモダリティと特徴抽出器に最適なプーリング機能を探すことは、特に特徴のサイズが異なる場合(テキスト、ビデオなど)、コストと手間がかかります。したがって、Generalized Pooling Operator(GPO)を提案します。これは、効果的かつ効率的でありながら、手動で調整する必要がなく、さまざまな機能に最適なプーリング戦略に自動的に適応することを学習します。この提案されたGPOを使用してVSEモデルを拡張し、VSE∞と表記します。ベルやホイッスルがない場合、VSE∞は、一般的な特徴抽出器全体の画像テキスト検索ベンチマークで、以前のVSEメソッドを大幅に上回ります。単純な適応で、VSE∞のバリアントは、2つのビデオテキスト検索データセットで新しい最先端技術を実現することにより、その強みをさらに示します。包括的な実験と視覚化により、GPOは常に最適なプーリング戦略を発見し、標準のVSEモデルのプラグアンドプレイ機能集約モジュールになり得ることが確認されています。
Visual Semantic Embedding (VSE) is a dominant approach for vision-language retrieval, which aims at learning a deep embedding space such that visual data are embedded close to their semantic text labels or descriptions. Recent VSE models use complex methods to better contextualize and aggregate multi-modal features into holistic embeddings. However, we discover that surprisingly simple (but carefully selected) global pooling functions (e.g. , max pooling) outperform those complex models, across different feature extractors. Despite its simplicity and effectiveness, seeking the best pooling function for different data modality and feature extractor is costly and tedious, especially when the size of features varies (e.g. , text, video). Therefore, we propose a Generalized Pooling Operator (GPO), which learns to automatically adapt itself to the best pooling strategy for different features, requiring no manual tuning while staying effective and efficient. We extend the VSE model using this proposed GPO and denote it as VSE∞. Without bells and whistles, VSE∞ outperforms previous VSE methods significantly on image-text retrieval benchmarks across popular feature extractors. With a simple adaptation, variants of VSE∞ further demonstrate its strength by achieving the new state of the art on two video-text retrieval datasets. Comprehensive experiments and visualizations confirm that GPO always discovers the best pooling strategy and can be a plug-and-play feature aggregation module for standard VSE models.
updated: Mon Apr 05 2021 12:43:06 GMT+0000 (UTC)
published: Mon Nov 09 2020 10:22:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト