この論文では、サムネイルという名前の新しいデータ拡張戦略を提案します。これは、ネットワークによるグローバル機能のキャプチャを強化することを目的としています。画像をサムネイルと呼ばれる特定のサイズに縮小し、元の画像のランダムな位置に貼り付けることで、生成された画像を取得します。生成された画像は、元の画像情報のほとんどを保持するだけでなく、サムネイルにグローバル情報も含みます。さらに、サムネイルのアイデアは混合サンプルデータ拡張と完全に統合できることがわかったため、グラウンドトゥルースラベルも特定の重みで混合された別の画像にサムネイルを貼り付けます。これにより、さまざまなコンピュータービジョンタスクで大きな成果が得られます。広範な実験により、サムネイルは、分類、きめ細かい画像分類、およびオブジェクト検出全体で、最先端の拡張戦略よりも優れていることが示されています。 ImageNet分類では、私たちの方法を使用したResNet50アーキテクチャは79.21%の精度を達成します。これは、ベースラインから2.89%以上の改善です。
In this paper, we propose a new data augmentation strategy named Thumbnail, which aims to strengthen the network's capture of global features. We get a generated image by reducing an image to a certain size, which is called as the thumbnail, and pasting it in the random position of the original image. The generated image not only retains most of the original image information but also has the global information in the thumbnail. Furthermore, we find that the idea of thumbnail can be perfectly integrated with Mixed Sample Data Augmentation, so we paste the thumbnail in another image where the ground truth labels are also mixed with a certain weight, which makes great achievements on various computer vision tasks. Extensive experiments show that Thumbnail works better than the state-of-the-art augmentation strategies across classification, fine-grained image classification, and object detection. On ImageNet classification, ResNet50 architecture with our method achieves 79.21% accuracy, which is more than 2.89% improvement on the baseline.