このホワイト ペーパーでは、リーフレットの画像に基づいて公開された最初のきめ細かい製品認識データセットについて説明します。ヨーロッパのさまざまな小売業者から数年にわたって収集された広告リーフレットを使用して、手動で注釈を付けた合計 41.6k の製品画像を 832 クラスで提供します。さらに、このきめの細かい製品分類タスク、画像による分類、テキストによる分類、画像とテキストによる分類の 3 つの異なるアプローチを調査します。 「テキストによる分類」というアプローチでは、チラシの製品画像から直接抽出されたテキストを使用します。入力としての画像とテキストの組み合わせが、視覚的に区別しにくい製品の分類を改善することを示します。最終的なモデルの精度は 96.4% で、トップ 3 スコアは 99.2% です。 https://github.com/ladwigd/Leaflet-Product-Classification でコードをリリースしています。
In this paper, we describe a first publicly available fine-grained product recognition dataset based on leaflet images. Using advertisement leaflets, collected over several years from different European retailers, we provide a total of 41.6k manually annotated product images in 832 classes. Further, we investigate three different approaches for this fine-grained product classification task, Classification by Image, by Text, as well as by Image and Text. The approach "Classification by Text" uses the text extracted directly from the leaflet product images. We show, that the combination of image and text as input improves the classification of visual difficult to distinguish products. The final model leads to an accuracy of 96.4% with a Top-3 score of 99.2%. We release our code at https://github.com/ladwigd/Leaflet-Product-Classification.