Deep Learning Face Attributes in the Wild
実世界において顔の属性を予測することは、複雑な顔のバリエーションのために困難である。本研究では、実世界における属性予測のための新しいディープラーニングフレームワークを提案する。このフレームワークでは、LNetとANetという2つのCNNをカスケード接続しており、これらのCNNは属性タグと連携してファインチューンされるが、別々に事前学習される。LNetは顔の定位のために大規模な一般物体カテゴリによって事前学習され、ANetは属性予測のために大規模な顔の同一性によって事前学習される。本研究では、LNetの性能を大幅に向上させただけでなく、顔表現の学習に関する貴重な事実を明らかにした。(1) 顔の定位(LNet)と属性予測(ANet)の性能が、事前学習の方法を変えることでどのように改善されるかを示す。(2)LNetのフィルタは画像レベルの属性タグのみでファインチューンされているにもかかわらず、画像全体の応答マップは顔の位置を強く示していることを明らかにした。これにより、属性認識に必ず必要な顔のバウンディングボックスやランドマークを用いず、画像レベルの属性タグのみでLNetが顔の定位を学習することが可能となる。(3) また、ANetの高レベル隠れニューロンは、大量の顔識別情報を用いた事前学習の後、意味的な概念を自動的に発見し、属性タグを用いた微調整の後、そのような概念が著しく豊かになることを示している。各属性は、これらの概念の疎な線形の組み合わせで十分に説明できる。
Predicting face attributes in the wild is challenging due to complex face variations. We propose a novel deep learning framework for attribute prediction in the wild. It cascades two CNNs, LNet and ANet, which are fine-tuned jointly with attribute tags, but pre-trained differently. LNet is pre-trained by massive general object categories for face localization, while ANet is pre-trained by massive face identities for attribute prediction. This framework not only outperforms the state-of-the-art with a large margin, but also reveals valuable facts on learning face representation. (1) It shows how the performances of face localization (LNet) and attribute prediction (ANet) can be improved by different pre-training strategies. (2) It reveals that although the filters of LNet are fine-tuned only with image-level attribute tags, their response maps over entire images have strong indication of face locations. This fact enables training LNet for face localization with only image-level annotations, but without face bounding boxes or landmarks, which are required by all attribute recognition works. (3) It also demonstrates that the high-level hidden neurons of ANet automatically discover semantic concepts after pre-training with massive face identities, and such concepts are significantly enriched after fine-tuning with attribute tags. Each attribute can be well explained with a sparse linear combination of these concepts.
updated: Thu Sep 24 2015 13:52:26 GMT+0000 (UTC)
published: Fri Nov 28 2014 07:13:54 GMT+0000 (UTC)
