深いオブジェクト認識モデルは、ImageNetなどのベンチマークデータセットに対して非常に成功しています。データセットの自然および合成の変動から生じる分布の変化に対して、それらはどの程度正確で堅牢ですか?この問題に関するこれまでの研究は、主にImageNetのバリエーション(ImageNetV2、ImageNet-Aなど)に焦点を当てていました。これらの研究における潜在的な継承バイアスを回避するために、私たちは異なるアプローチを取ります。具体的には、Barbuらによって最近提案されたObjectNetデータセットを再分析します。日常生活の中でオブジェクトを含みます。彼らは、このデータセットの最先端のオブジェクト認識モデルの劇的なパフォーマンスの低下を示しました。ディープモデルの一般化能力に関する結果の重要性と影響のために、それらの分析を再検討します。元の論文のようにシーン全体ではなく、孤立したオブジェクトに深いモデルを適用すると、パフォーマンスが約20〜30%向上することがわかりました。 Barbu et al。で報告された数値と比較して、テスト時間のデータを増やすことなく、パフォーマンスの低下の約10〜15%が回復しています。ただし、この利益にもかかわらず、ObjectNetデータセットではディープモデルが依然として大幅に苦しんでいると結論付けています。また、幾何学的変換(スケール、回転、平行移動など)、自然な画像の歪み(インパルスノイズ、ブラーなど)、敵対的な攻撃(FGSMやPGD-5など)などの合成画像の摂動に対するモデルの堅牢性についても調査します。 。私たちの結果は、オブジェクト領域を可能な限り制限すること(つまり、画像全体からバウンディングボックス、セグメンテーションマスクまで)が、精度と堅牢性の一貫した改善につながることを示しています。
Deep object recognition models have been very successful over benchmark datasets such as ImageNet. How accurate and robust are they to distribution shifts arising from natural and synthetic variations in datasets? Prior research on this problem has primarily focused on ImageNet variations (e.g., ImageNetV2, ImageNet-A). To avoid potential inherited biases in these studies, we take a different approach. Specifically, we reanalyze the ObjectNet dataset recently proposed by Barbu et al. containing objects in daily life situations. They showed a dramatic performance drop of the state of the art object recognition models on this dataset. Due to the importance and implications of their results regarding the generalization ability of deep models, we take a second look at their analysis. We find that applying deep models to the isolated objects, rather than the entire scene as is done in the original paper, results in around 20-30% performance improvement. Relative to the numbers reported in Barbu et al., around 10-15% of the performance loss is recovered, without any test time data augmentation. Despite this gain, however, we conclude that deep models still suffer drastically on the ObjectNet dataset. We also investigate the robustness of models against synthetic image perturbations such as geometric transformations (e.g., scale, rotation, translation), natural image distortions (e.g., impulse noise, blur) as well as adversarial attacks (e.g., FGSM and PGD-5). Our results indicate that limiting the object area as much as possible (i.e., from the entire image to the bounding box to the segmentation mask) leads to consistent improvement in accuracy and robustness.