Do Image Classifiers Generalize Across Time?
 ビデオから派生した時間的摂動に対する画像分類器の堅牢性を研究します。この調査の一環として、知覚的に類似した画像の3,139セットにグループ化された合計57,897の画像を含む2つのデータセットImageNet-Vid-RobustおよびYTBB-Robustを構築します。データセットは、ImageNet-VidとYoutube-BBからそれぞれ派生し、画像の類似性について人間の専門家によって完全に再注釈されました。 ImageNetで事前にトレーニングされた分類子の多様な配列を評価し、2つのデータセットで16および10の分類精度の中央値の低下を示しています。さらに、3つの検出モデルを評価し、自然な摂動が分類エラーとローカリゼーションエラーの両方を引き起こし、検出mAPの中央値が14ポイント低下することを示しています。私たちの分析は、ビデオで自然に発生する摂動が、信頼できる予測と低遅延予測の両方を必要とする環境で畳み込みニューラルネットワークを展開するための実質的かつ現実的な課題をもたらすことを示しています
We study the robustness of image classifiers to temporal perturbations derived from videos. As part of this study, we construct two datasets, ImageNet-Vid-Robust and YTBB-Robust , containing a total 57,897 images grouped into 3,139 sets of perceptually similar images. Our datasets were derived from ImageNet-Vid and Youtube-BB respectively and thoroughly re-annotated by human experts for image similarity. We evaluate a diverse array of classifiers pre-trained on ImageNet and show a median classification accuracy drop of 16 and 10 on our two datasets. Additionally, we evaluate three detection models and show that natural perturbations induce both classification as well as localization errors, leading to a median drop in detection mAP of 14 points. Our analysis demonstrates that perturbations occurring naturally in videos pose a substantial and realistic challenge to deploying convolutional neural networks in environments that require both reliable and low-latency predictions
