深く学習された表現は、顔認識方法の最先端の記述子です。これらの表現は、説明が難しい潜在的な特徴をエンコードし、予測の信頼性と解釈可能性を損ないます。深い特徴を説明するほとんどの試みは、しばしば解釈の余地がある視覚化技術です。視覚化だけに依存するのではなく、非表示レイヤーの出力を使用して顔の属性を予測します。得られたパフォーマンスは、ネットワークのその層で属性が暗黙的に学習されているかどうかの指標です。変数選択手法を使用して、これらのセマンティックコンセプトが各レイヤー内にどのように分布しているかを分析し、各属性に関連するニューロンの正確な位置を確立します。私たちの実験によると、性別、眼鏡、帽子の使用量は、各属性を予測するために単一の神経出力のみが使用されている場合でも、96%を超える精度で予測できます。これらのパフォーマンスは、詳細に監視された顔属性ネットワークによって達成されるパフォーマンスよりも3パーセントポイント未満低くなります。要約すると、私たちの実験は、顔識別用に最適化されたDCNN内に、これらの属性用に最適化されたDCNNとほぼ同じ精度で顔属性をエンコードする潜在ニューロンが存在することを示しています。
Deeply learned representations are the state-of-the-art descriptors for face recognition methods. These representations encode latent features that are difficult to explain, compromising the confidence and interpretability of their predictions. Most attempts to explain deep features are visualization techniques that are often open to interpretation. Instead of relying only on visualizations, we use the outputs of hidden layers to predict face attributes. The obtained performance is an indicator of how well the attribute is implicitly learned in that layer of the network. Using a variable selection technique, we also analyze how these semantic concepts are distributed inside each layer, establishing the precise location of relevant neurons for each attribute. According to our experiments, gender, eyeglasses and hat usage can be predicted with over 96% accuracy even when only a single neural output is used to predict each attribute. These performances are less than 3 percentage points lower than the ones achieved by deep supervised face attribute networks. In summary, our experiments show that, inside DCNNs optimized for face identification, there exists latent neurons encoding face attributes almost as accurately as DCNNs optimized for these attributes.