arXiv reaDer
マルチグラニュラー アラインメントによるファッション画像検索
Fashion Image Retrieval with Multi-Granular Alignment
ファッション画像検索タスクは、クエリ画像の関連する衣料品をギャラリーから検索することを目的としています。前のレシピでは、さまざまな距離ベースの損失関数の設計に焦点を当て、関連するペアを近づけて、無関係な画像を引き離します。ただし、これらの方法では、衣服の画像の細かい特徴 (衿、袖口など) が無視されます。この論文では、Multi-Granular Alignment (MGA) と呼ばれる、グローバルな特徴と細かい特徴の両方を活用する新しいファッション画像検索方法を提案します。具体的には、詳細なパターンをキャプチャして集約するために、Fine-Granular Aggregator (FGA) を設計します。次に、Attention-based Token Alignment (ATA) を提案して、粗いものから細かい方法で多粒度レベルで画像の特徴を整列させます。提案された方法の有効性を証明するために、公開ファッション データセット DeepFashion の 2 つのサブタスク (In-Shop と Consumer2Shop) で実験を行います。実験結果は、我々の MGA が最先端の方法よりも R@1 メトリクスの 2 つのサブタスクでそれぞれ 1.8% と 0.6% 優れていることを示しています。
Fashion image retrieval task aims to search relevant clothing items of a query image from the gallery. The previous recipes focus on designing different distance-based loss functions, pulling relevant pairs to be close and pushing irrelevant images apart. However, these methods ignore fine-grained features (e.g. neckband, cuff) of clothing images. In this paper, we propose a novel fashion image retrieval method leveraging both global and fine-grained features, dubbed Multi-Granular Alignment (MGA). Specifically, we design a Fine-Granular Aggregator(FGA) to capture and aggregate detailed patterns. Then we propose Attention-based Token Alignment (ATA) to align image features at the multi-granular level in a coarse-to-fine manner. To prove the effectiveness of our proposed method, we conduct experiments on two sub-tasks (In-Shop & Consumer2Shop) of the public fashion datasets DeepFashion. The experimental results show that our MGA outperforms the state-of-the-art methods by 1.8% and 0.6% in the two sub-tasks on the R@1 metric, respectively.
updated: Tue Mar 07 2023 07:18:22 GMT+0000 (UTC)
published: Thu Feb 16 2023 10:43:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト