A New Benchmark and Approach for Fine-grained Cross-media Retrieval
 クロスメディア検索は、任意のメディアタイプのクエリに対応するさまざまなメディアタイプの結果を返すことです。既存の研究は一般に、粗いクロスメディア検索に焦点を当てています。ユーザーが「Slaty-backed Gull」の画像をクエリとして送信すると、粗粒度のクロスメディア検索でそれが「Bird」として扱われるため、ユーザーは「Bird」の結果のみを取得できます。同様の外観(画像とビデオ)、説明(テキスト)または音声(オーディオ)(「ヘリングカモメ」など)。このような粒度の粗いクロスメディア検索は、一般的に「ヘリングガル」ではなく「スレートバックガル」の正確に関連する結果を返すというきめの細かい要件がある人間のライフスタイルとは一致しません。ただし、きめ細かいクロスメディア検索に焦点を当てた研究はほとんどなく、これは非常に困難で実用的なタスクです。したがって、このペーパーでは、最初に、「鳥」の200の細粒度サブカテゴリで構成され、画像、テキスト、ビデオ、音声などの4つのメディアタイプを含む、細粒度のクロスメディア検索の新しいベンチマークを構築します。私たちの知る限り、これはきめ細かいクロスメディア検索のための4つのメディアタイプを持つ最初のベンチマークです。次に、差別的な処理なしで4種類のメディアを同時に学習する、均一なディープモデル、すなわちFGCrossNetを提案します。共通表現の学習を改善するために、3つの制約を共同で検討します。分類制約は識別機能の学習を保証し、中心制約は同じサブカテゴリの機能のコンパクト性特性を保証し、ランキング制約は異なるサブカテゴリの機能のスパース性特性を保証します。広範な実験により、新しいベンチマークの有用性とFGCrossNetの有効性が検証されます。それらはで利用可能になります。
Cross-media retrieval is to return the results of various media types corresponding to the query of any media type. Existing researches generally focus on coarse-grained cross-media retrieval. When users submit an image of "Slaty-backed Gull" as a query, coarse-grained cross-media retrieval treats it as "Bird", so that users can only get the results of "Bird", which may include other bird species with similar appearance (image and video), descriptions (text) or sounds (audio), such as "Herring Gull". Such coarse-grained cross-media retrieval is not consistent with human lifestyle, where we generally have the fine-grained requirement of returning the exactly relevant results of "Slaty-backed Gull" instead of "Herring Gull". However, few researches focus on fine-grained cross-media retrieval, which is a highly challenging and practical task. Therefore, in this paper, we first construct a new benchmark for fine-grained cross-media retrieval, which consists of 200 fine-grained subcategories of the "Bird", and contains 4 media types, including image, text, video and audio. To the best of our knowledge, it is the first benchmark with 4 media types for fine-grained cross-media retrieval. Then, we propose a uniform deep model, namely FGCrossNet, which simultaneously learns 4 types of media without discriminative treatments. We jointly consider three constraints for better common representation learning: classification constraint ensures the learning of discriminative features, center constraint ensures the compactness characteristic of the features of the same subcategory, and ranking constraint ensures the sparsity characteristic of the features of different subcategories. Extensive experiments verify the usefulness of the new benchmark and the effectiveness of our FGCrossNet. They will be made available at
updated: Thu Oct 31 2019 06:37:53 GMT+0000 (UTC)
published: Wed Jul 10 2019 01:15:22 GMT+0000 (UTC)
