arXiv reaDer
GeoDE: オブジェクト認識のための地理的に多様な評価データセット
GeoDE: a Geographically Diverse Evaluation Dataset for Object Recognition
現在のデータセット収集方法は、通常、Web から大量のデータをスクレイピングします。この手法は非常にスケーラブルですが、この方法で収集されたデータはステレオタイプの偏見を助長する傾向があり、個人を特定できる情報が含まれる可能性があり、通常はヨーロッパと北米からのものです。この作業では、データセット コレクションのパラダイムを再考し、GeoDE を紹介します。これは、40 のクラスと 6 つの世界地域からの 61,940 枚の画像を含む地理的に多様なデータセットであり、クラウドソーシングを通じて収集された個人を特定できる情報はありません。 GeoDE を分析して、この方法で収集された画像と Web スクレイピングとの違いを理解します。このデータセットはサイズが小さいにもかかわらず、評価とトレーニングの両方のデータセットとしての使用を実証し、現在のモデルの欠点を強調し、少量の GeoDE (地域ごとに 1000 ~ 2000 画像) を追加した場合のパフォーマンスの向上を示します。トレーニング データセット。 https://geodiverse-data-collection.cs.princeton.edu/ で完全なデータセットとコードをリリースします。
Current dataset collection methods typically scrape large amounts of data from the web. While this technique is extremely scalable, data collected in this way tends to reinforce stereotypical biases, can contain personally identifiable information, and typically originates from Europe and North America. In this work, we rethink the dataset collection paradigm and introduce GeoDE, a geographically diverse dataset with 61,940 images from 40 classes and 6 world regions, and no personally identifiable information, collected through crowd-sourcing. We analyse GeoDE to understand differences in images collected in this manner compared to web-scraping. Despite the smaller size of this dataset, we demonstrate its use as both an evaluation and training dataset, highlight shortcomings in current models, as well as show improved performances when even small amounts of GeoDE (1000 - 2000 images per region) are added to a training dataset. We release the full dataset and code at https://geodiverse-data-collection.cs.princeton.edu/
updated: Sat Apr 08 2023 00:10:46 GMT+0000 (UTC)
published: Thu Jan 05 2023 18:21:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト