元のデータセット分布から豊富な入力分布を生成するための簡単な方法、CropMixを紹介します。限られた情報や、純粋な背景や無関係なオブジェクトなどの無関係な情報のみを誤ってキャプチャする可能性がある単一のランダムトリミングとは異なり、個別のトリミングスケールを使用して画像を複数回トリミングすることで、マルチスケール情報が確実にキャプチャされます。次に、トレーニングデータとして機能し、多くの視覚タスクに役立つ新しい入力分布が、複数のトリミングされたビューを単純に混合することによって形成されます。最初に、CropMixを、分類タスクを実行する事実上すべてのトレーニングレシピとニューラルネットワークアーキテクチャにシームレスに適用できることを示します。 CropMixは、計算の単純さと効率を犠牲にすることなく、全体的ないくつかのベンチマークタスクで画像分類器のパフォーマンスを向上させることが示されています。さらに、CropMixは、より強力な表現に向けた対照的な学習とマスクされた画像モデリングの両方に有益であり、学習された表現がダウンストリームタスクに転送されるときに好ましい結果が得られることを示します。コードはGitHubで入手できます。
We present a simple method, CropMix, for the purpose of producing a rich input distribution from the original dataset distribution. Unlike single random cropping, which may inadvertently capture only limited information, or irrelevant information, like pure background, unrelated objects, etc, we crop an image multiple times using distinct crop scales, thereby ensuring that multi-scale information is captured. The new input distribution, serving as training data, useful for a number of vision tasks, is then formed by simply mixing multiple cropped views. We first demonstrate that CropMix can be seamlessly applied to virtually any training recipe and neural network architecture performing classification tasks. CropMix is shown to improve the performance of image classifiers on several benchmark tasks across-the-board without sacrificing computational simplicity and efficiency. Moreover, we show that CropMix is of benefit to both contrastive learning and masked image modeling towards more powerful representations, where preferable results are achieved when learned representations are transferred to downstream tasks. Code is available at GitHub.