過去 20 年間に研究コミュニティに公開された大規模なデータセットは、NLP やコンピューター ビジョンのディープ ラーニング アルゴリズムの進歩を可能にする重要な要因となっています。これらのデータセットは、通常、位置合わせされた画像と手動で注釈が付けられたメタデータのペアであり、画像は日常生活の写真です。一方、学術的および歴史的コンテンツは、必ずしも一般的な聴衆に人気があるとは限らない主題を扱い、常に多数のデータ ポイントが含まれているとは限らず、新しいデータの収集が困難または不可能な場合があります。科学データや健康データなど、いくつかの例外はありますが、文化遺産 (CH) には当てはまりません。コンピューター ビジョンにおける最高のモデルのパフォーマンスの低さ (アートワークでテストした場合) は、CH の広範な注釈付きデータセットの欠如と相まって、アートワークの画像が写真ではキャプチャされていないオブジェクトとアクションを描写しているという事実は、CH 固有のデータセットがこのコミュニティにとって非常に価値があります。 DEArt を提案します。この時点では、主に、12 世紀から 18 世紀の間の絵画の参照となることを意図したオブジェクト検出およびポーズ分類データセットです。 15000 を超える画像 (約 80% が非象徴的) が含まれており、69 のクラスのすべてのインスタンスを識別する境界ボックスの手動注釈と、人間のようなオブジェクトを識別するボックスの 12 の可能なポーズが配置されています。これらのうち、50 を超えるクラスは CH 固有であるため、他のデータセットには表示されません。これらは、架空の存在、象徴的な存在、および芸術に関連するその他のカテゴリを反映しています。さらに、既存のデータセットにはポーズの注釈が含まれていません。私たちの結果は、文化遺産ドメインのオブジェクト検出器が、転移学習を介して汎用画像の最先端モデルに匹敵するレベルの精度を達成できることを示しています。
Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and historical content, on the other hand, treat subjects that are not necessarily popular to a general audience, they may not always contain a large number of data points, and new data may be difficult or impossible to collect. Some exceptions do exist, for instance, scientific or health data, but this is not the case for cultural heritage (CH). The poor performance of the best models in computer vision - when tested over artworks - coupled with the lack of extensively annotated datasets for CH, and the fact that artwork images depict objects and actions not captured by photographs, indicate that a CH-specific dataset would be highly valuable for this community. We propose DEArt, at this point primarily an object detection and pose classification dataset meant to be a reference for paintings between the XIIth and the XVIIIth centuries. It contains more than 15000 images, about 80% non-iconic, aligned with manual annotations for the bounding boxes identifying all instances of 69 classes as well as 12 possible poses for boxes identifying human-like objects. Of these, more than 50 classes are CH-specific and thus do not appear in other datasets; these reflect imaginary beings, symbolic entities and other categories related to art. Additionally, existing datasets do not include pose annotations. Our results show that object detectors for the cultural heritage domain can achieve a level of precision comparable to state-of-art models for generic images via transfer learning.