ImageNet-1Kは、コンピュータービジョンタスクの深層学習モデルを事前トレーニングするための主要なデータセットとして機能します。より多くの画像とクラスを含むImageNet-21Kデータセットは、主にその複雑さと、標準のImageNet-1K事前トレーニングと比較してその付加価値を過小評価しているため、事前トレーニングに使用される頻度が低くなっています。このホワイトペーパーは、このギャップを埋め、ImageNet-21Kでの高品質で効率的な事前トレーニングをすべての人が利用できるようにすることを目的としています。 %WordNet階層を利用した専用の前処理段階と、セマンティックソフトマックスと呼ばれる新しいトレーニングスキームを介して、小さなモバイル指向モデルを含むさまざまなモデルが、多数のデータセットとタスクでのImageNet-21K事前トレーニングから大きな恩恵を受けることを示します。また、ViTなどの著名な新しいモデルの以前のImageNet-21K事前トレーニングスキームよりも優れていることも示しています。 %提案された事前トレーニングパイプラインは効率的でアクセス可能であり、公開されているデータセットからSoTAの再現可能な結果につながります。トレーニングコードと事前トレーニング済みモデルは、https://github.com/Alibaba-MIIL/ImageNet21Kで入手できます。
ImageNet-1K serves as the primary dataset for pretraining deep learning models for computer vision tasks. ImageNet-21K dataset, which contains more pictures and classes, is used less frequently for pretraining, mainly due to its complexity, and underestimation of its added value compared to standard ImageNet-1K pretraining. This paper aims to close this gap, and make high-quality efficient pretraining on ImageNet-21K available for everyone. % Via a dedicated preprocessing stage, utilizing WordNet hierarchies, and a novel training scheme called semantic softmax, we show that various models, including small mobile-oriented models, significantly benefit from ImageNet-21K pretraining on numerous datasets and tasks. We also show that we outperform previous ImageNet-21K pretraining schemes for prominent new models like ViT. % Our proposed pretraining pipeline is efficient, accessible, and leads to SoTA reproducible results, from a publicly available dataset. The training code and pretrained models are available at: https://github.com/Alibaba-MIIL/ImageNet21K