ImageNetスケールで、人間の視覚に触発された2つの機能、明示的なエピソードメモリと形状バイアスを備えた画像認識モデルの堅牢性の特性を調査します。以前の研究で報告されたように、明示的なエピソードメモリにより、一部の脅威モデルの下での小規範の敵対的摂動に対する画像認識モデルの堅牢性が向上することが示されています。ただし、より自然な、通常はより大きな摂動に対する堅牢性は向上しません。この第2の意味での堅牢性には、トレーニング中により堅牢な機能を学習する必要があるようです。グローバルな形状ベースの表現(Geirhos et al。、2019)を学習するように奨励されたモデルから派生した機能は、自然な摂動に対するロバスト性を向上させるだけでなく、エピソードメモリと組み合わせて使用すると、それらも提供することを示します敵対的摂動に対する追加の堅牢性。最後に、エピソードメモリの3つの重要な設計上の選択肢、メモリサイズ、メモリの次元、および検索方法について説明します。エピソードメモリをよりコンパクトにするためには、メモリの次元数を減らすのではなく、クラスタ化してメモリの数を減らすことが望ましいことを示します。
We investigate the robustness properties of image recognition models equipped with two features inspired by human vision, an explicit episodic memory and a shape bias, at the ImageNet scale. As reported in previous work, we show that an explicit episodic memory improves the robustness of image recognition models against small-norm adversarial perturbations under some threat models. It does not, however, improve the robustness against more natural, and typically larger, perturbations. Learning more robust features during training appears to be necessary for robustness in this second sense. We show that features derived from a model that was encouraged to learn global, shape-based representations (Geirhos et al., 2019) do not only improve the robustness against natural perturbations, but when used in conjunction with an episodic memory, they also provide additional robustness against adversarial perturbations. Finally, we address three important design choices for the episodic memory: memory size, dimensionality of the memories and the retrieval method. We show that to make the episodic memory more compact, it is preferable to reduce the number of memories by clustering them, instead of reducing their dimensionality.