Face representation by deep learning: a linear encoding in a parameter space?
  最近、Convolutional Neural Networks(CNN)は顔認識で驚異的なパフォーマンスを達成しました。CNNの成功に関する一般的な見方の1つは、CNNが複雑な画像特徴エンコーディングで顔画像から識別的顔表現を学習できることです。ただし、CNNの顔の表現の本質的なメカニズムはまだ不明です。この研究では、顔画像を形状-外観パラメータ空間の点として定式化することによりこの問題を調査し、その結果は次のことを示しています:(i)CNNの顔画像に対するニューロン応答(表現)のエンコードとデコードが達成できた霊長類のIT顔ニューロンにおける最近の発見と一致するが、複雑な画像特徴符号化によるCNNの顔表現に関する前述の視点とは異なり、パラメータ空間の線形モデルの下で。 (ii)パラメータ空間での顔の符号化および復号化の線形モデルは、顔認識システムの設計戦略に新しい光を提供する可能性のある最先端のCNNよりも、顔認識および検証のパフォーマンスを向上させることができます。 ; (iii)CNNの顔画像に対するニューロン応答は、霊長類IT皮質の顔モデリングで最近提案されたモデルである軸モデルによって適切にモデル化できませんでした。これらの結果はすべて、顔認識に関するCNNの驚異的なパフォーマンスの背後にある、しばしば不満を抱いているブラックボックスの性質にいくつかの光を当てるかもしれません。
Recently, Convolutional Neural Networks (CNNs) have achieved tremendous performances on face recognition, and one popular perspective regarding CNNs' success is that CNNs could learn discriminative face representations from face images with complex image feature encoding. However, it is still unclear what is the intrinsic mechanism of face representation in CNNs. In this work, we investigate this problem by formulating face images as points in a shape-appearance parameter space, and our results demonstrate that: (i) The encoding and decoding of the neuron responses (representations) to face images in CNNs could be achieved under a linear model in the parameter space, in agreement with the recent discovery in primate IT face neurons, but different from the aforementioned perspective on CNNs' face representation with complex image feature encoding; (ii) The linear model for face encoding and decoding in the parameter space could achieve close or even better performances on face recognition and verification than state-of-the-art CNNs, which might provide new lights on the design strategies for face recognition systems; (iii) The neuron responses to face images in CNNs could not be adequately modelled by the axis model, a model recently proposed on face modelling in primate IT cortex. All these results might shed some lights on the often complained blackbox nature behind CNNs' tremendous performances on face recognition.
