Oracle-MNISTデータセットを紹介します。このデータセットは、10のカテゴリからの30,222の古代文字の28×28のグレースケール画像で構成され、画像のノイズと歪みに特に挑戦するパターン分類のベンチマークに使用されます。トレーニングセットは全体で27,222枚の画像で構成され、テストセットにはクラスごとに300枚の画像が含まれています。 Oracle-MNISTは、元のMNISTデータセットと同じデータ形式を共有し、既存のすべての分類子およびシステムとの直接互換性を可能にしますが、MNISTよりも難しい分類タスクを構成します。古代の文字の画像は、1)3000年の埋葬と老化によって引き起こされる非常に深刻で独特なノイズ、および2)古代中国人による劇的に変化する文体に悩まされており、これらはすべて機械学習の研究に現実的です。データセットはhttps://github.com/wm-bupt/oracle-mnistから無料で入手できます。
We introduce the Oracle-MNIST dataset, comprising of 28×28 grayscale images of 30,222 ancient characters from 10 categories, for benchmarking pattern classification, with particular challenges on image noise and distortion. The training set totally consists of 27,222 images, and the test set contains 300 images per class. Oracle-MNIST shares the same data format with the original MNIST dataset, allowing for direct compatibility with all existing classifiers and systems, but it constitutes a more challenging classification task than MNIST. The images of ancient characters suffer from 1) extremely serious and unique noises caused by three-thousand years of burial and aging and 2) dramatically variant writing styles by ancient Chinese, which all make them realistic for machine learning research. The dataset is freely available at https://github.com/wm-bupt/oracle-mnist.