深いネットワークが顔の認識においてますます正確になるにつれて、これらのネットワークがどのように顔を処理するかを理解することが不可欠です。これらのネットワークは身元を認識するためだけに訓練されていますが、性別、年齢、顔のポーズなどの顔関連情報も含まれています。ネットワークは、これらの属性を学習するように訓練されていません。特徴ベクトルがネットワークの内部または最終層からのものである可能性がある属性について、特徴ベクトルがどの程度情報を提供するかの尺度として表現力を導入します。表現力は、入力が特徴と属性である2番目のニューラルネットワークによって計算されます。 2番目のニューラルネットワークの出力は、特徴ベクトルと属性間の相互情報を近似します。 2つの異なる深畳み込みニューラルネットワーク(DCNN)アーキテクチャの表現性を調査します:Resnet-101とInception Resnet v2。ネットワークの最後の完全に接続されたレイヤーでは、顔の属性の表現力の順序が年齢>性別>ヨーであることがわかりました。さらに、トレーニングの繰り返しによる顔の属性のエンコードの変化を調べました。トレーニングが進むと、ヨー、性別、年齢の表現力が低下することがわかりました。私たちの手法は、ネットワークのバイアスの原因を調査するためのツールであり、ネットワークのアイデンティティの決定を説明するためのステップになります。
As deep networks become increasingly accurate at recognizing faces, it is vital to understand how these networks process faces. While these networks are solely trained to recognize identities, they also contain face related information such as sex, age, and pose of the face. The networks are not trained to learn these attributes. We introduce expressivity as a measure of how much a feature vector informs us about an attribute, where a feature vector can be from internal or final layers of a network. Expressivity is computed by a second neural network whose inputs are features and attributes. The output of the second neural network approximates the mutual information between feature vectors and an attribute. We investigate the expressivity for two different deep convolutional neural network (DCNN) architectures: a Resnet-101 and an Inception Resnet v2. In the final fully connected layer of the networks, we found the order of expressivity for facial attributes to be Age > Sex > Yaw. Additionally, we studied the changes in the encoding of facial attributes over training iterations. We found that as training progresses, expressivities of yaw, sex, and age decrease. Our technique can be a tool for investigating the sources of bias in a network and a step towards explaining the network's identity decisions.