この研究では、テキストガイドによる破損に対する画像分類器の堅牢性を調査します。拡散モデルを利用して画像をさまざまなドメインに編集します。ベンチマークに合成データや厳選されたデータを使用する他の研究とは異なり、意味論的な内容を維持しながら画像の編集方法を学習できる生成モデルである拡散モデルを使用します。したがって、破損はより現実的になり、比較はより有益になります。また、手動でラベルを付ける必要がなく、少ない労力で大規模なベンチマークを作成できます。元の ImageNet 階層に基づいてプロンプト階層を定義し、さまざまなドメインで編集を適用します。新しいベンチマークを導入するだけでなく、さまざまな視覚モデルの堅牢性を調査することも試みています。この調査の結果は、さまざまな言語ベースの破損や編集ドメインでは画像分類器のパフォーマンスが大幅に低下することを示しています。また、畳み込みモデルはトランスフォーマー アーキテクチャよりも堅牢であることも観察されています。さらに、一般的なデータ拡張技術により、元のデータと編集された画像の両方のパフォーマンスが向上することがわかりました。この研究の結果は、画像分類器の設計を改善し、より堅牢な機械学習システムの開発に貢献することができます。ベンチマークを生成するコードは、https://github.com/ckoorosh/RobuText で入手できます。
This study investigates the robustness of image classifiers to text-guided corruptions. We utilize diffusion models to edit images to different domains. Unlike other works that use synthetic or hand-picked data for benchmarking, we use diffusion models as they are generative models capable of learning to edit images while preserving their semantic content. Thus, the corruptions will be more realistic and the comparison will be more informative. Also, there is no need for manual labeling and we can create large-scale benchmarks with less effort. We define a prompt hierarchy based on the original ImageNet hierarchy to apply edits in different domains. As well as introducing a new benchmark we try to investigate the robustness of different vision models. The results of this study demonstrate that the performance of image classifiers decreases significantly in different language-based corruptions and edit domains. We also observe that convolutional models are more robust than transformer architectures. Additionally, we see that common data augmentation techniques can improve the performance on both the original data and the edited images. The findings of this research can help improve the design of image classifiers and contribute to the development of more robust machine learning systems. The code for generating the benchmark is available at https://github.com/ckoorosh/RobuText.