Feature Aggregation Network for Video Face Recognition
  この論文は、ビデオ顔認識タスクのためのビデオのコンパクトな表現を学ぶことを目的としています。私たちは以下の貢献をします。まず、すべてのフレーム間で各特徴次元に沿って特徴を適応的かつ細かく重み付けして、コンパクトで識別可能な表現を形成するメタ注意ベースの集約スキームを提案します。通常の方法のように低品質のフレームを破棄したり軽spしたりせずに、各フレームの貴重な部分または差別的な部分を活用して顔認識のパフォーマンスを向上させることが最善です。次に、機能組み込みモジュールと機能集約モジュールで構成される機能集約ネットワークを構築します。埋め込みモジュールは、顔画像から特徴ベクトルを抽出するために使用される畳み込みニューラルネットワークであり、集約モジュールは、特徴ベクトルを単一の固定長表現に適応的に集約するカスケード接続された2つのメタアテンションブロックで構成されます。ネットワークは任意の数のフレームを処理でき、フレームの順序には影響されません。第三に、提案された集約スキームのパフォーマンスを検証します。 YouTubeの顔データセットやIJB-Aデータセットなど、公開されているデータセットでの実験は、この方法の有効性を示しており、検証プロトコルと識別プロトコルの両方で競争力のあるパフォーマンスを達成しています。
This paper aims to learn a compact representation of a video for video face recognition task. We make the following contributions: first, we propose a meta attention-based aggregation scheme which adaptively and fine-grained weighs the feature along each feature dimension among all frames to form a compact and discriminative representation. It makes the best to exploit the valuable or discriminative part of each frame to promote the performance of face recognition, without discarding or despising low quality frames as usual methods do. Second, we build a feature aggregation network comprised of a feature embedding module and a feature aggregation module. The embedding module is a convolutional neural network used to extract a feature vector from a face image, while the aggregation module consists of cascaded two meta attention blocks which adaptively aggregate the feature vectors into a single fixed-length representation. The network can deal with arbitrary number of frames, and is insensitive to frame order. Third, we validate the performance of proposed aggregation scheme. Experiments on publicly available datasets, such as YouTube face dataset and IJB-A dataset, show the effectiveness of our method, and it achieves competitive performances on both the verification and identification protocols.
updated: Thu Sep 12 2019 09:03:09 GMT+0000 (UTC)
published: Mon May 06 2019 02:37:12 GMT+0000 (UTC)
