arXiv reaDer
PAM: 製品カテゴリ間の属性抽出における製品画像の理解
PAM: Understanding Product Images in Cross Product Category Attribute Extraction
製品属性を理解することは、顧客のオンライン ショッピング エクスペリエンスを向上させる上で重要な役割を果たし、製品ナレッジ グラフを構築するための不可欠な部分として機能します。既存の方法のほとんどは、テキストの説明から属性を抽出するか、形状や色などの製品画像からの視覚情報を利用します。以前の作品で考慮された入力と比較して、実際には製品画像にはより多くの情報が含まれており、顧客を感動させるために慎重に設計されたレイアウトで言葉と視覚的手がかりの豊富な混合によって表されます。この作業は、属性抽出のためにこれらのさまざまなモダリティを完全に利用する、より包括的なフレームワークを提案します。視覚的な質問応答の最近の作品に触発され、トランスフォーマーベースのシーケンスを使用してモデルをシーケンスし、製品テキスト、光学式文字認識 (OCR) トークン、および製品画像で検出された視覚オブジェクトの表現を融合します。フレームワークは、製品カテゴリと属性値の両方を予測するようにデコーダーをトレーニングし、製品カテゴリで出力を調整することにより、単一のモデルで複数の製品カテゴリにわたって属性値を抽出する機能でさらに拡張されます。このモデルは、さまざまな製品属性を持つ多数の製品カテゴリを提供する e コマース プラットフォームで望ましい、統一された属性抽出ソリューションを提供します。 14 の製品カテゴリを超える多くの可能な値と少数の可能な値のセットを持つ 2 つの製品属性でモデルを評価したところ、モデルはリコールで 15% 向上し、F1 スコアで 10% 向上することがわかりました。テキストのみの機能を使用した既存のメソッド。
Understanding product attributes plays an important role in improving online shopping experience for customers and serves as an integral part for constructing a product knowledge graph. Most existing methods focus on attribute extraction from text description or utilize visual information from product images such as shape and color. Compared to the inputs considered in prior works, a product image in fact contains more information, represented by a rich mixture of words and visual clues with a layout carefully designed to impress customers. This work proposes a more inclusive framework that fully utilizes these different modalities for attribute extraction. Inspired by recent works in visual question answering, we use a transformer based sequence to sequence model to fuse representations of product text, Optical Character Recognition (OCR) tokens and visual objects detected in the product image. The framework is further extended with the capability to extract attribute value across multiple product categories with a single model, by training the decoder to predict both product category and attribute value and conditioning its output on product category. The model provides a unified attribute extraction solution desirable at an e-commerce platform that offers numerous product categories with a diverse body of product attributes. We evaluated the model on two product attributes, one with many possible values and one with a small set of possible values, over 14 product categories and found the model could achieve 15% gain on the Recall and 10% gain on the F1 score compared to existing methods using text-only features.
updated: Tue Jun 08 2021 18:30:17 GMT+0000 (UTC)
published: Tue Jun 08 2021 18:30:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト