arXiv reaDer
顔表現学習への注意としての深さ
Depth as Attention for Face Representation Learning
顔表現学習ソリューションは、検証や識別などのさまざまなアプリケーションで最近大きな成功を収めています。ただし、純粋にRGB画像に基づく顔認識アプローチは、強度情報のみに依存するため、顔の変化、特にポーズ、オクルージョン、および照明や背景などの環境変化に対してより敏感です。低コストのRGB-Dセンサーを使用した深いマルチモーダル顔認識のために、新しい深度誘導注意メカニズムが提案されています。私たちの新しい注意メカニズムは、畳み込みニューラルネットワーク(CNN)によって抽出された深度特徴を使用してネットワークの注意を集中させることにより、RGB画像の視覚的特徴を「どこで探すか」を深いネットワークに指示します。深度機能は、ネットワークがRGB画像内のより目立つ人物固有の情報を含む顔の領域に焦点を合わせるのに役立ちます。次に、アテンションメカニズムはこの相関関係を使用して、CNNによって抽出された深度特徴からRGB画像のアテンションマップを生成します。 4つの公開データセットでネットワークをテストし、提案されたソリューションによって得られた機能が、ポーズ、オクルージョン、照明、表現の挑戦的なバリエーションを含むLock3DFace、CurtinFaces、IIIT-D RGB-D、およびKaspAROVデータセットでより良い結果をもたらすことを示しています。とタイムラプス。私たちのソリューションは、4つのデータセットでそれぞれ87.3%(+ 5.0%)、99.1%(+ 0.9%)、99.7%(+ 0.6%)、95.3%(+ 0.5%)の平均(増加)精度を達成し、それによって状態を改善します-最先端。また、深度画像の代わりに熱画像を使用して追加の実験を実行し、深度情報の代わりに注意メカニズムを導くために他のモダリティを採用する場合のソリューションの高い一般化能力を示します
Face representation learning solutions have recently achieved great success for various applications such as verification and identification. However, face recognition approaches that are based purely on RGB images rely solely on intensity information, and therefore are more sensitive to facial variations, notably pose, occlusions, and environmental changes such as illumination and background. A novel depth-guided attention mechanism is proposed for deep multi-modal face recognition using low-cost RGB-D sensors. Our novel attention mechanism directs the deep network "where to look" for visual features in the RGB image by focusing the attention of the network using depth features extracted by a Convolution Neural Network (CNN). The depth features help the network focus on regions of the face in the RGB image that contains more prominent person-specific information. Our attention mechanism then uses this correlation to generate an attention map for RGB images from the depth features extracted by CNN. We test our network on four public datasets, showing that the features obtained by our proposed solution yield better results on the Lock3DFace, CurtinFaces, IIIT-D RGB-D, and KaspAROV datasets which include challenging variations in pose, occlusion, illumination, expression, and time-lapse. Our solution achieves average (increased) accuracies of 87.3% (+5.0%), 99.1% (+0.9%), 99.7% (+0.6%) and 95.3%(+0.5%) for the four datasets respectively, thereby improving the state-of-the-art. We also perform additional experiments with thermal images, instead of depth images, showing the high generalization ability of our solution when adopting other modalities for guiding the attention mechanism instead of depth information
updated: Mon Apr 05 2021 08:56:35 GMT+0000 (UTC)
published: Sun Jan 03 2021 16:19:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト