この情報を適切に活用することは利益の面で有益である可能性があるため、消費者の好みを推定することはファッション業界にとって最も重要です。ファッション業界の変化のペースが速いため、ファッションのトレンド検出は困難な作業です。さらに、新しい衣服のデザインの視覚的な人気を予測することは、履歴データが不足しているため、さらに困難です。この目的のために、2つのモジュールを組み合わせたマルチモーダル準自己回帰深層学習アーキテクチャであるMuQARを提案します:(1)製品のカテゴリ、視覚、およびテキストの特徴を処理するマルチモーダル多層パーセプトロンと(2)準自己回帰他のすべての属性の「外因性」時系列とともに、製品の属性の「ターゲット」時系列をモデル化するニューラルネットワーク。コンピュータビジョン、画像分類、画像キャプションを利用して、新製品の画像から視覚的特徴やテキストによる説明を自動的に抽出します。ファッションの製品デザインは最初は視覚的に表現され、これらの機能は、追加の入力(手動で書かれたテキストなど)を必要とすることで、デザイナーの創造的なプロセスを妨げることなく、製品の独自の特性を表します。製品のターゲット属性の時系列を時間的な人気パターンのプロキシとして使用し、履歴データの不足を軽減します。一方、外因性の時系列は、相互に関連する属性間の傾向をキャプチャするのに役立ちます。 2つの大規模な画像ファッションデータセットであるMallzeeとSHIFT15mで広範なアブレーション分析を実行して、MuQARの妥当性を評価し、Amazon Reviews:HomeandKitchenデータセットを使用して他のドメインへの一般化可能性を評価します。 VISUELLEデータセットの比較研究によると、MuQARは、ドメインの現在の最先端技術と競合し、WAPEとMAEに関してそれぞれ4.65%と4.8%を超えることができます。
Estimating the preferences of consumers is of utmost importance for the fashion industry as appropriately leveraging this information can be beneficial in terms of profit. Trend detection in fashion is a challenging task due to the fast pace of change in the fashion industry. Moreover, forecasting the visual popularity of new garment designs is even more demanding due to lack of historical data. To this end, we propose MuQAR, a Multimodal Quasi-AutoRegressive deep learning architecture that combines two modules: (1) a multi-modal multi-layer perceptron processing categorical, visual and textual features of the product and (2) a quasi-autoregressive neural network modelling the "target" time series of the product's attributes along with the "exogenous" time series of all other attributes. We utilize computer vision, image classification and image captioning, for automatically extracting visual features and textual descriptions from the images of new products. Product design in fashion is initially expressed visually and these features represent the products' unique characteristics without interfering with the creative process of its designers by requiring additional inputs (e.g manually written texts). We employ the product's target attributes time series as a proxy of temporal popularity patterns, mitigating the lack of historical data, while exogenous time series help capture trends among interrelated attributes. We perform an extensive ablation analysis on two large scale image fashion datasets, Mallzee and SHIFT15m to assess the adequacy of MuQAR and also use the Amazon Reviews: Home and Kitchen dataset to assess generalisability to other domains. A comparative study on the VISUELLE dataset, shows that MuQAR is capable of competing and surpassing the domain's current state of the art by 4.65% and 4.8% in terms of WAPE and MAE respectively.