ビジョン トランスフォーマー (ViT) は、視覚認識タスクの最先端に進んでいます。最新の調査によると、トランスフォーマーは CNN よりも堅牢です。主張によれば、ViT の自己注意メカニズムは、CNN よりも堅牢になっています。それでも、これらの結論は不公平な実験条件に基づいており、いくつかのモデルを比較しているだけであり、ロバスト性パフォーマンスのシナリオ全体を描写することはできませんでした.この研究では、注意と畳み込みメカニズムだけでなく、畳み込みと注意メカニズムの組み合わせに基づくニューラル ネットワークにも基づく統合トレーニング セットアップで、58 の最先端のコンピューター ビジョン モデルのパフォーマンスを調査します。ベースのモデル、補完的な検索、およびネットワークベースの方法。私たちの調査では、堅牢性はトレーニングのセットアップとモデルの種類に依存し、パフォーマンスは分布外の種類に基づいて変化することが示されています。私たちの研究は、コミュニティがコンピュータ ビジョン モデルの堅牢性をよりよく理解し、ベンチマークするのに役立ちます。
The vision transformer (ViT) has advanced to the cutting edge in the visual recognition task. Transformers are more robust than CNN, according to the latest research. ViT's self-attention mechanism, according to the claim, makes it more robust than CNN. Even with this, we discover that these conclusions are based on unfair experimental conditions and just comparing a few models, which did not allow us to depict the entire scenario of robustness performance. In this study, we investigate the performance of 58 state-of-the-art computer vision models in a unified training setup based not only on attention and convolution mechanisms but also on neural networks based on a combination of convolution and attention mechanisms, sequence-based model, complementary search, and network-based method. Our research demonstrates that robustness depends on the training setup and model types, and performance varies based on out-of-distribution type. Our research will aid the community in better understanding and benchmarking the robustness of computer vision models.