Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining
今日、電子商取引に対する顧客の要求はより多様化しており、それは製品検索業界により多くの複雑さをもたらします。以前の方法は、シングルモーダル入力の対象となるか、教師あり画像レベルの製品検索を実行するため、弱く注釈が付けられた膨大なマルチモーダルデータが存在する実際のシナリオに対応できません。この論文では、きめ細かい製品カテゴリ間で弱教師ありマルチモーダルインスタンスレベルの製品検索を実行することを目的とした、より現実的な設定を調査します。このやりがいのあるタスクの研究を促進するために、実世界のインスタンスレベルの検索用の最大のマルチモーダルコスメティックデータセットの1つであるProduct1Mを提供します。特に、Product1Mには100万を超える画像とキャプションのペアが含まれており、2つのサンプルタイプ、つまり単一製品と複数製品のサンプルで構成されており、さまざまな化粧品ブランドが含まれています。 Product1Mは、多様性に加えて、きめ細かいカテゴリ、複雑な組み合わせ、実際のシーンをよく模倣したファジーな対応など、いくつかの魅力的な特性を備えています。さらに、インスタンスレベルの製品検索(CAPTURE)用のクロスモーダル対照製品トランスフォーマーという名前の新しいモデルを提案します。これは、ハイブリッドストリームトランスフォーマーを介したマルチモーダル入力間の潜在的な相乗効果を自己監視方式でキャプチャするのに優れています。CAPTUREマスクされたマルチモーダル学習とクロスモーダル対照事前トレーニングを介して識別インスタンス機能を生成し、いくつかのSOTAクロスモーダルベースラインを上回ります。広範なアブレーション研究は、私たちのモデルの有効性と一般化能力をよく示しています。データセットとコードはで入手できます。
Nowadays, customer's demands for E-commerce are more diversified, which introduces more complications to the product retrieval industry. Previous methods are either subject to single-modal input or perform supervised image-level product retrieval, thus fail to accommodate real-life scenarios where enormous weakly annotated multi-modal data are present. In this paper, we investigate a more realistic setting that aims to perform weakly-supervised multi-modal instance-level product retrieval among fine-grained product categories. To promote the study of this challenging task, we contribute Product1M, one of the largest multi-modal cosmetic datasets for real-world instance-level retrieval. Notably, Product1M contains over 1 million image-caption pairs and consists of two sample types, i.e., single-product and multi-product samples, which encompass a wide variety of cosmetics brands. In addition to the great diversity, Product1M enjoys several appealing characteristics including fine-grained categories, complex combinations, and fuzzy correspondence that well mimic the real-world scenes. Moreover, we propose a novel model named Cross-modal contrAstive Product Transformer for instance-level prodUct REtrieval (CAPTURE), that excels in capturing the potential synergy between multi-modal inputs via a hybrid-stream transformer in a self-supervised manner.CAPTURE generates discriminative instance features via masked multi-modal learning as well as cross-modal contrastive pretraining and it outperforms several SOTA cross-modal baselines. Extensive ablation studies well demonstrate the effectiveness and the generalization capacity of our model. Dataset and codes are available at https: //
updated: Mon Aug 09 2021 14:58:36 GMT+0000 (UTC)
published: Fri Jul 30 2021 12:11:24 GMT+0000 (UTC)
