arXiv reaDer
Attended End-to-end Architecture for Age Estimation from Facial Expression Videos
 表情ビデオからの年齢推定の主な課題は、静的な顔の外観のモデリングだけでなく、一時的な顔のダイナミクスのキャプチャにもあります。この問題に対する従来の手法は、顔の外観とダイナミクスに個別に含まれる識別情報を調べるために、手作りの機能を構築することに焦点を当てています。これは、洗練された機能の洗練とフレームワークの設計に依存しています。この論文では、顔の生のビデオから年齢の外観とダイナミクスの両方を同時に学習できる、空間推定インデックスモデル(SIAM)と呼ばれる、年齢推定のためのエンドツーエンドアーキテクチャを提示します。具体的には、畳み込みニューラルネットワークを使用して、効果的な潜在的外観表現を抽出し、それらをリカレントネットワークにフィードして、時間ダイナミクスをモデル化します。さらに重要なことは、各単一画像の空間領域とビデオ全体の時間領域の両方で顕著性検出に注意モデルを活用することを提案することです。個々の画像の顕著な顔領域を抽出するために畳み込み層の間で特定の空間インデックス付きの注意メカニズムを設計し、各フレームに注意の重みを割り当てるために時間的注意層を設計します。この2つのアプローチは、モデルが有益なフレームと顔の領域に集中できるようにすることでパフォーマンスを向上させるだけでなく、空間的な顔領域と時間的フレーム、および年齢推定のタスク間の解釈可能な対応も提供します。 8〜76歳の年齢の400人の被験者を含む大規模な性別バランスのデータベースでの実験で、モデルの強力なパフォーマンスを実証します。実験により、十分なトレーニングデータが与えられた場合、モデルが最新の方法よりも大幅に優れていることがわかります。
The main challenges of age estimation from facial expression videos lie not only in the modeling of the static facial appearance, but also in the capturing of the temporal facial dynamics. Traditional techniques to this problem focus on constructing handcrafted features to explore the discriminative information contained in facial appearance and dynamics separately. This relies on sophisticated feature-refinement and framework-design. In this paper, we present an end-to-end architecture for age estimation, called Spatially-Indexed Attention Model (SIAM), which is able to simultaneously learn both the appearance and dynamics of age from raw videos of facial expressions. Specifically, we employ convolutional neural networks to extract effective latent appearance representations and feed them into recurrent networks to model the temporal dynamics. More importantly, we propose to leverage attention models for salience detection in both the spatial domain for each single image and the temporal domain for the whole video as well. We design a specific spatially-indexed attention mechanism among the convolutional layers to extract the salient facial regions in each individual image, and a temporal attention layer to assign attention weights to each frame. This two-pronged approach not only improves the performance by allowing the model to focus on informative frames and facial areas, but it also offers an interpretable correspondence between the spatial facial regions as well as temporal frames, and the task of age estimation. We demonstrate the strong performance of our model in experiments on a large, gender-balanced database with 400 subjects with ages spanning from 8 to 76 years. Experiments reveal that our model exhibits significant superiority over the state-of-the-art methods given sufficient training data.
updated: Sat Nov 30 2019 15:46:37 GMT+0000 (UTC)
published: Thu Nov 23 2017 13:43:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト