arXiv reaDer
マルチグレイン不確実性正則化によるテキストフィードバックによる合成画像検索
Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization
テキストフィードバックによる合成画像検索を研究します。ユーザーは、粗いフィードバックから細かいフィードバックに移行することで、関心のあるターゲットを徐々に探します。ただし、既存の方法は、トレーニング中に正と負のペアを利用することによる後者、つまりきめの細かい検索に焦点を当てているだけです。このペアベースのパラダイムでは、特定の点のペア間の 1 対 1 の距離のみが考慮されますが、これは 1 対多の粗粒検索プロセスと一致せず、再現率が低下します。このギャップを埋めるために、マルチグレインの不確実性を考慮して、粗い検索と細かい検索を同時にモデル化する統合学習アプローチを導入します。提案された方法を支える重要なアイデアは、それぞれ小さな変動と大きな変動を持つデータ点を照合するために、細粒度検索と粗粒度検索を統合することです。具体的には、私たちの方法には、不確実性モデリングと不確実性正則化という 2 つのモジュールが含まれています。 (1) 不確実性モデリングは、特徴空間に同一に分布した変動を導入することによって、マルチグレイン クエリをシミュレートします。 (2) 不確実性モデリングに基づいて、変動範囲に応じてマッチング目標を適応させるために不確実性正則化をさらに導入します。既存の方法と比較して、提案された戦略は、モデルが初期段階で潜在的な候補を押しのけるのを明示的に防ぎ、再現率を向上させます。 3 つの公開データセット、つまり FashionIQ、Fashion200k、および Shoes に関して、提案された方法は、強力なベースラインに対してそれぞれ +4.03%、+3.38%、および +2.40% の Recall@50 精度を達成しました。
We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e., fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage and thus improves the recall rate. On the three public datasets, i.e. , FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, + 3.38%, and + 2.40% Recall@50 accuracy over a strong baseline, respectively.
updated: Mon May 15 2023 12:50:11 GMT+0000 (UTC)
published: Mon Nov 14 2022 14:25:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト