arXiv reaDer
OutfitTransformer:ファッション推奨のための服装表現の学習
OutfitTransformer: Learning Outfit Representations for Fashion Recommendation
効果的な衣装レベルの表現を学習することは、衣装内のアイテムの互換性を予測し、部分的な衣装の補完的なアイテムを取得するために重要です。提案されたタスク固有のトークンを使用し、自己注意メカニズムを活用して、互換性予測と補完的なアイテム取得タスクの両方に対処するために、衣装全体のすべてのアイテム間の互換性関係をエンコードする効果的な衣装レベルの表現を学習するフレームワークOutfitTransformerを紹介します。互換性を予測するために、グローバルな衣装表現をキャプチャし、分類損失を使用してフレームワークをトレーニングする衣装トークンを設計します。補完的なアイテム検索のために、ターゲットアイテムの仕様(カテゴリまたはテキストの説明の形式)を追加で考慮したターゲットアイテムトークンを設計します。提案されたセットごとの衣装ランキング損失を使用してフレームワークをトレーニングし、衣装を指定してターゲットアイテムの埋め込みを生成し、ターゲットアイテムの仕様を入力として生成します。生成されたターゲットアイテムの埋め込みは、残りの衣装と一致する互換性のあるアイテムを取得するために使用されます。さらに、検索パフォーマンスを向上させるために、事前トレーニングアプローチとカリキュラム学習戦略を採用しています。私たちのフレームワークは衣装レベルで学習するため、ペアワイズ方式よりも効果的に衣装内の複数のアイテム間の高次の関係をキャプチャする単一の埋め込みを学習できます。実験は、私たちのアプローチが、互換性予測、空欄埋め、および補完的なアイテム検索タスクで最先端の方法よりも優れていることを示しています。さらに、ユーザースタディを使用して、検索結果の品質を検証します。
Learning an effective outfit-level representation is critical for predicting the compatibility of items in an outfit, and retrieving complementary items for a partial outfit. We present a framework, OutfitTransformer, that uses the proposed task-specific tokens and leverages the self-attention mechanism to learn effective outfit-level representations encoding the compatibility relationships between all items in the entire outfit for addressing both compatibility prediction and complementary item retrieval tasks. For compatibility prediction, we design an outfit token to capture a global outfit representation and train the framework using a classification loss. For complementary item retrieval, we design a target item token that additionally takes the target item specification (in the form of a category or text description) into consideration. We train our framework using a proposed set-wise outfit ranking loss to generate a target item embedding given an outfit, and a target item specification as inputs. The generated target item embedding is then used to retrieve compatible items that match the rest of the outfit. Additionally, we adopt a pre-training approach and a curriculum learning strategy to improve retrieval performance. Since our framework learns at an outfit-level, it allows us to learn a single embedding capturing higher-order relations among multiple items in the outfit more effectively than pairwise methods. Experiments demonstrate that our approach outperforms state-of-the-art methods on compatibility prediction, fill-in-the-blank, and complementary item retrieval tasks. We further validate the quality of our retrieval results with a user study.
updated: Fri Apr 15 2022 23:28:15 GMT+0000 (UTC)
published: Mon Apr 11 2022 00:55:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト