arXiv reaDer
顔の位置合わせ、頭のポーズの推定、顔の追跡のための効率的なマルチタスクニューラルネットワーク
An Efficient Multitask Neural Network for Face Alignment, Head Pose Estimation and Face Tracking
畳み込みニューラルネットワーク(CNN)は、顔に関連するアルゴリズムのパフォーマンスを大幅に向上させましたが、実際の使用で精度と効率を同時に維持することは依然として困難です。最先端の方法では、より深いネットワークを使用してパフォーマンスを向上させます。これにより、パラメーターが増え、計算が複雑になるため、モバイルアプリケーションでは実用性が低下します。したがって、顔の位置合わせ、顔の追跡、頭のポーズの推定のために、効率的なマルチタスクニューラルネットワークであるAlignment&Tracking&Pose Network(ATPN)を提案します。具体的には、面の位置合わせのためのより少ないレイヤーでより良いパフォーマンスを達成するために、浅いレイヤーと深いレイヤーの機能の間にショートカット接続を導入します。浅い層の特徴は、顔の構造情報を提供できる顔の境界に非常に対応しており、顔の位置合わせに不可欠であることがわかります。さらに、顔の位置合わせの結果に基づいて安価なヒートマップを生成し、それを機能と融合して、他の2つのタスクのパフォーマンスを向上させます。ヒートマップに基づいて、ネットワークはランドマークの幾何学的情報と外観情報の両方を頭のポーズの推定に利用できます。ヒートマップは、顔追跡の注意の手がかりも提供します。顔追跡タスクは、各フレームの顔検出手順も節約します。これにより、ビデオベースのタスクのリアルタイム機能も大幅に向上します。 WFLW、300VW、WIDER Face、300W-LPの4つのベンチマークデータセットでATPNを実験的に検証します。実験結果は、他のライトモデルと比較して、はるかに少ないパラメータと低い計算の複雑さでより良いパフォーマンスを達成することを示しています。
While Convolutional Neural Networks (CNNs) have significantly boosted the performance of face related algorithms, maintaining accuracy and efficiency simultaneously in practical use remains challenging. The state-of-the-art methods employ deeper networks for better performance, which makes it less practical for mobile applications because of more parameters and higher computational complexity. Therefore, we propose an efficient multitask neural network, Alignment & Tracking & Pose Network (ATPN) for face alignment, face tracking and head pose estimation. Specifically, to achieve better performance with fewer layers for face alignment, we introduce a shortcut connection between shallow-layer and deep-layer features. We find the shallow-layer features are highly correspond to facial boundaries that can provide the structural information of face and it is crucial for face alignment. Moreover, we generate a cheap heatmap based on the face alignment result and fuse it with features to improve the performance of the other two tasks. Based on the heatmap, the network can utilize both geometric information of landmarks and appearance information for head pose estimation. The heatmap also provides attention clues for face tracking. The face tracking task also saves us the face detection procedure for each frame, which also significantly boost the real-time capability for video-based tasks. We experimentally validate ATPN on four benchmark datasets, WFLW, 300VW, WIDER Face and 300W-LP. The experimental results demonstrate that it achieves better performance with much less parameters and lower computational complexity compared to other light models.
updated: Tue Apr 26 2022 02:40:18 GMT+0000 (UTC)
published: Sat Mar 13 2021 04:41:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト