ディープラーニングの重要な目標は、入力データの多目的で高レベルの特徴表現を学習することです。ただし、標準ネットワークの表現には、この目標を完全に実現することを妨げる短所があるようです。この作業では、ロバストな最適化を、ディープニューラルネットワークによって学習された機能に事前優先順位を適用するためのツールとして再キャストできることを示します。堅牢なモデルによって学習された表現は、前述の欠点に対処し、入力の高レベルエンコーディングの学習に向けて大きな進歩を遂げていることがわかります。特に、これらの表現はほぼ可逆的ですが、顕著な視覚化と顕著な入力機能の操作を可能にします。より広く、我々の結果は、学習した表現を改善するための有望な手段としての敵対的堅牢性を示しています。これらの結果を再現するためのコードとモデルはhttps://git.io/robust-repsで入手できます。
An important goal in deep learning is to learn versatile, high-level feature representations of input data. However, standard networks' representations seem to possess shortcomings that, as we illustrate, prevent them from fully realizing this goal. In this work, we show that robust optimization can be re-cast as a tool for enforcing priors on the features learned by deep neural networks. It turns out that representations learned by robust models address the aforementioned shortcomings and make significant progress towards learning a high-level encoding of inputs. In particular, these representations are approximately invertible, while allowing for direct visualization and manipulation of salient input features. More broadly, our results indicate adversarial robustness as a promising avenue for improving learned representations. Our code and models for reproducing these results is available at https://git.io/robust-reps .