arXiv reaDer
自然界の画像コレクションのベンチマーク表現学習
Benchmarking Representation Learning for Natural World Image Collections
自己教師あり学習の最近の進歩により、明示的なラベル監視を必要とせずに、画像コレクションから豊富な表現を抽出できるモデルが生まれました。ただし、これまで、これらのアプローチの大部分は、ImageNetなどの標準的なベンチマークデータセットでのトレーニングに限定されていました。植物や動物の種の分類など、きめ細かい視覚的分類の問題は、自己教師あり学習のための有益なテストベッドを提供すると主張します。この分野での進歩を促進するために、2つの新しい自然界の視覚分類データセット、iNat2021とNeWTを紹介します。前者は、市民科学アプリケーションiNaturalistのユーザーによってアップロードされた10,000種類の異なる種からの270万枚の画像で構成されています。後者のNeWTは、標準的な種分類を超える一連の挑戦的な自然界の二項分類タスクで表現学習アルゴリズムのパフォーマンスをベンチマークすることを目的として、ドメインの専門家と協力して設計しました。これらの2つの新しいデータセットを使用すると、大規模な表現と転移学習に関連する質問を、きめ細かいカテゴリのコンテキストで探索できます。 ImageNetとiNat2021の監視の有無にかかわらずトレーニングされた機能抽出機能の包括的な分析を提供し、さまざまなタスクのセット全体で学習されたさまざまな機能の長所と短所に光を当てます。標準の教師あり手法によって生成された機能は、SimCLRなどの自己教師ありアプローチによって生成された機能よりも優れていることがわかります。ただし、改善された教師あり学習方法は絶えずリリースされており、iNat2021およびNeWTデータセットはそれらの進捗状況を追跡するための貴重なリソースです。
Recent progress in self-supervised learning has resulted in models that are capable of extracting rich representations from image collections without requiring any explicit label supervision. However, to date the vast majority of these approaches have restricted themselves to training on standard benchmark datasets such as ImageNet. We argue that fine-grained visual categorization problems, such as plant and animal species classification, provide an informative testbed for self-supervised learning. In order to facilitate progress in this area we present two new natural world visual classification datasets, iNat2021 and NeWT. The former consists of 2.7M images from 10k different species uploaded by users of the citizen science application iNaturalist. We designed the latter, NeWT, in collaboration with domain experts with the aim of benchmarking the performance of representation learning algorithms on a suite of challenging natural world binary classification tasks that go beyond standard species classification. These two new datasets allow us to explore questions related to large-scale representation and transfer learning in the context of fine-grained categories. We provide a comprehensive analysis of feature extractors trained with and without supervision on ImageNet and iNat2021, shedding light on the strengths and weaknesses of different learned features across a diverse set of tasks. We find that features produced by standard supervised methods still outperform those produced by self-supervised approaches such as SimCLR. However, improved self-supervised learning methods are constantly being released and the iNat2021 and NeWT datasets are a valuable resource for tracking their progress.
updated: Tue Jun 08 2021 22:07:20 GMT+0000 (UTC)
published: Tue Mar 30 2021 16:41:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト