最近の研究では、データの増強がディープラーニングモデルの汎化能力を大幅に改善する可能性があることが示されている。最近では、自動化された増強戦略により、画像分類や物体検出において最先端の結果が得られている。これらの戦略は検証精度を向上させるために最適化されていたが、半教師付き学習においても最先端の結果をもたらし、画像の一般的な破損に対するロバスト性を向上させた。これらの手法を大規模に採用するための障害は、分離された探索フェーズであり、それは学習の複雑さを増し、計算コストが大幅に増加する可能性がある。さらに、分離された探索フェーズのため、これらのアプローチはモデルやデータセットのサイズに基づいて正則化の強さを調整することができない。自動化された増強ポリシーは、小さなデータセット上で小さなモデルを訓練し、その後、より大きなモデルを訓練するために適用することで発見されることが多い。本研究では、これらの障害の両方を取り除く。RandAugmentは探索空間を大幅に削減しているため、別の代理タスクを必要とせずにターゲットタスク上で学習することができる。さらに、パラメータ化により、正則化の強さを異なるモデルやデータセットのサイズに合わせて調整することができる。RandAugmentは、異なるタスクやデータセットに対して一様に使用することができ、CIFAR-10/100、SVHN、ImageNetの過去の自動化された増強アプローチと同等かそれを上回る性能を持っている。ImageNetのデータセットでは85.0%の精度を達成しており、これは以前の最新技術と比較して0.6%の向上、ベースラインの増強と比較して1.0%の向上となる。また、物体検出においては、RandAugmentはベースラインの増強と比較して1.0~1.3%の精度向上を達成し、COCOのAutoAugmentと比較して0.3%mAP以内である。最後に、解釈可能なハイパーパラメータのため、RandAugmentはモデルやデータセットのサイズを変化させながら、データ増強の役割を調査するために使用することができる。コードはオンラインで入手可能。
Recent work has shown that data augmentation has the potential to significantly improve the generalization of deep learning models. Recently, automated augmentation strategies have led to state-of-the-art results in image classification and object detection. While these strategies were optimized for improving validation accuracy, they also led to state-of-the-art results in semi-supervised learning and improved robustness to common corruptions of images. An obstacle to a large-scale adoption of these methods is a separate search phase which increases the training complexity and may substantially increase the computational cost. Additionally, due to the separate search phase, these approaches are unable to adjust the regularization strength based on model or dataset size. Automated augmentation policies are often found by training small models on small datasets and subsequently applied to train larger models. In this work, we remove both of these obstacles. RandAugment has a significantly reduced search space which allows it to be trained on the target task with no need for a separate proxy task. Furthermore, due to the parameterization, the regularization strength may be tailored to different model and dataset sizes. RandAugment can be used uniformly across different tasks and datasets and works out of the box, matching or surpassing all previous automated augmentation approaches on CIFAR-10/100, SVHN, and ImageNet. On the ImageNet dataset we achieve 85.0% accuracy, a 0.6% increase over the previous state-of-the-art and 1.0% increase over baseline augmentation. On object detection, RandAugment leads to 1.0-1.3% improvement over baseline augmentation, and is within 0.3% mAP of AutoAugment on COCO. Finally, due to its interpretable hyperparameter, RandAugment may be used to investigate the role of data augmentation with varying model and dataset size. Code is available online.