arXiv reaDer
動的不確実性を伴う大規模なデータセットの枝刈り
Large-scale Dataset Pruning with Dynamic Uncertainty
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集し、それらに基づいてより大きなモデルをトレーニングすることによって進歩しています。その結果、増大する計算コストは​​負担できなくなりつつあります。このペーパーでは、大規模なデータセットをプルーニングして、パフォーマンスの低下を無視して洗練されたディープ モデルをトレーニングするための有益なサブセットを生成する方法を調査します。予測の不確実性とトレーニングダイナミクスの両方を調査することにより、シンプルでありながら効果的なデータセットの枝刈り方法を提案します。私たちの知る限り、これは大規模なデータセット (ImageNet-1K と ImageNet-21K) および高度なモデル (Swin Transformer と ConvNeXt) でのデータセット プルーニングを研究する最初の研究です。広範な実験結果は、私たちの方法が最先端技術を上回り、ImageNet-1K と ImageNet-21K の両方で 75% の可逆圧縮率を達成することを示しています。コードとプルーニングされたデータセットは、https://github.com/BAAI-DCAI/Dataset-Pruning で入手できます。
The state of the art of many learning tasks, e.g., image classification, is advanced by collecting larger datasets and then training larger models on them. As the outcome, the increasing computational cost is becoming unaffordable. In this paper, we investigate how to prune the large-scale datasets, and thus produce an informative subset for training sophisticated deep models with negligible performance drop. We propose a simple yet effective dataset pruning method by exploring both the prediction uncertainty and training dynamics. To our knowledge, this is the first work to study dataset pruning on large-scale datasets, i.e., ImageNet-1K and ImageNet-21K, and advanced models, i.e., Swin Transformer and ConvNeXt. Extensive experimental results indicate that our method outperforms the state of the art and achieves 75% lossless compression ratio on both ImageNet-1K and ImageNet-21K. The code and pruned datasets are available at https://github.com/BAAI-DCAI/Dataset-Pruning.
updated: Thu Jun 08 2023 13:14:35 GMT+0000 (UTC)
published: Thu Jun 08 2023 13:14:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト