arXiv reaDer
マルチモーダル融合モデルを使用したマルチラベル製品の分類
Multi-Label Product Categorization Using Multi-Modal Fusion Models
  この研究では、画像、説明、およびタイトルを使用して、Amazonのeコマース製品を分類するマルチモーダルアプローチを調査しました。具体的には、モダリティが決定レベルで融合される後期融合モデルを検討しました。製品にはそれぞれ複数のラベルが割り当てられ、ラベルの階層はフラット化およびフィルター処理されました。個々のベースラインモデルについて、CNNアーキテクチャを変更して説明とタイトルを分類し、次にKerasのResNet-50を変更して画像を分類し、それぞれ77.0%、82.7%、61.0%の$ F_1 $スコアを達成しました。これに対して、3モーダル後期融合モデルは、単一モーダルモデルよりも効果的に製品を分類でき、$ F_1 $スコアを88.2%に改善します。各モダリティは他のモダリティの欠点を補完し、モダリティの数を増やすことがマルチラベル分類問題のパフォーマンスを改善するための効果的な方法になり得ることを示しました。
In this study, we investigated multi-modal approaches using images, descriptions, and titles to categorize e-commerce products on Amazon. Specifically, we examined late fusion models, where the modalities are fused at the decision level. Products were each assigned multiple labels, and the hierarchy in the labels were flattened and filtered. For our individual baseline models, we modified a CNN architecture to classify the description and title, and then modified Keras' ResNet-50 to classify the images, achieving $F_1$ scores of 77.0%, 82.7%, and 61.0%, respectively. In comparison, our tri-modal late fusion model can classify products more effectively than single modal models can, improving the $F_1$ score to 88.2%. Each modality complemented the shortcomings of the other modalities, demonstrating that increasing the number of modalities can be an effective method for improving the performance of multi-label classification problems.
updated: Tue Sep 17 2019 02:54:31 GMT+0000 (UTC)
published: Sun Jun 30 2019 17:10:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト