この論文では、ネットワークの形状バイアスを改善することを目的とした、Cut-Thumbnailという名前の新しいデータ拡張戦略を提案します。画像を特定のサイズに縮小し、元の画像のランダムな領域を縮小された画像に置き換えます。生成された画像は、元の画像情報のほとんどを保持するだけでなく、縮小された画像にグローバル情報も含みます。縮小画像をサムネイルと呼びます。さらに、サムネイルのアイデアは混合サンプルデータ拡張と完全に統合できることがわかったため、グラウンドトゥルースラベルも混合しながら、ある画像のサムネイルを別の画像に配置し、さまざまなコンピュータビジョンタスクで大きな成果を上げました。広範な実験により、Cut-Thumbnailは、分類、きめ細かい画像分類、およびオブジェクト検出全体で、最先端の拡張戦略よりも優れていることが示されています。 ImageNet分類では、私たちの方法を使用したResNet-50アーキテクチャは79.21%の精度を達成します。これは、ベースラインから2.8%以上の改善です。
In this paper, we propose a novel data augmentation strategy named Cut-Thumbnail, that aims to improve the shape bias of the network. We reduce an image to a certain size and replace the random region of the original image with the reduced image. The generated image not only retains most of the original image information but also has global information in the reduced image. We call the reduced image as thumbnail. Furthermore, we find that the idea of thumbnail can be perfectly integrated with Mixed Sample Data Augmentation, so we put one image's thumbnail on another image while the ground truth labels are also mixed, making great achievements on various computer vision tasks. Extensive experiments show that Cut-Thumbnail works better than state-of-the-art augmentation strategies across classification, fine-grained image classification, and object detection. On ImageNet classification, ResNet-50 architecture with our method achieves 79.21% accuracy, which is more than 2.8% improvement on the baseline.