arXiv reaDer
ImageNet-21K 大衆向け事前学習用データセット
ImageNet-21K Pretraining for the Masses
ImageNet-1Kは、コンピュータビジョンタスクのための深層学習モデルを事前学習するための主要なデータセットとして機能している。ImageNet-21Kデータセットは、より大規模で多様なデータセットであるが、その複雑さ、アクセス性の低さ、付加価値の過小評価が主な理由で、事前学習に使用される頻度は低くなっている。本論文は、このギャップを解消し、ImageNet-21Kを用いた高品質で効率的な事前学習を誰でも利用できるようにすることを目的としている。専用の前処理段階、WordNet階層構造の利用、およびsemantic softmaxと呼ばれる新しい学習スキームにより、モバイル向けの小型モデルを含む多くのデータセットとタスクにおいて、様々なモデルがImageNet-21Kの事前学習から大きな利益を得ることを示す。また、ViTやMixerのような新しいモデルに対しても、これまでのImageNet-21Kの事前学習スキームよりも優れた結果を得ることができた。我々の提案する前学習パイプラインは、効率的でアクセスしやすく、一般に公開されているデータセットからSoTA再現可能な結果を導き出すことができる。トレーニングコードと前処理済みモデルは以下で公開されている: https://github.com/Alibaba-MIIL/ImageNet21K
ImageNet-1K serves as the primary dataset for pretraining deep learning models for computer vision tasks. ImageNet-21K dataset, which is bigger and more diverse, is used less frequently for pretraining, mainly due to its complexity, low accessibility, and underestimation of its added value. This paper aims to close this gap, and make high-quality efficient pretraining on ImageNet-21K available for everyone. Via a dedicated preprocessing stage, utilization of WordNet hierarchical structure, and a novel training scheme called semantic softmax, we show that various models significantly benefit from ImageNet-21K pretraining on numerous datasets and tasks, including small mobile-oriented models. We also show that we outperform previous ImageNet-21K pretraining schemes for prominent new models like ViT and Mixer. Our proposed pretraining pipeline is efficient, accessible, and leads to SoTA reproducible results, from a publicly available dataset. The training code and pretrained models are available at: https://github.com/Alibaba-MIIL/ImageNet21K
updated: Sun Jun 06 2021 08:29:51 GMT+0000 (UTC)
published: Thu Apr 22 2021 10:10:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト