arXiv reaDer
アダプティブキーフレームマイニングによるビデオクリップのマイクロエクスプレッションの認識
Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame Mining
顔の感情の自発的な表現として、ミクロ表現は人間が制御できない根底にある感情を明らかにします。微妙な表情では、顔の動きは一時的であり、時間の経過とともにまばらに局所化されます。ただし、フルビデオクリップから学習したさまざまなディープラーニング手法に基づく既存の表現は、通常、冗長です。さらに、各ビデオクリップの単一の頂点フレームを利用する方法では、専門家による注釈が必要であり、時間的ダイナミクスが犠牲になります。このようなつかの間の顔の動きを同時にローカライズして認識するために、適応キーフレームマイニングネットワーク(AKMNet)と呼ばれる新しいエンドツーエンドの深層学習アーキテクチャを提案します。微妙な表情のビデオクリップを操作して、AKMNetは、自己学習したローカルキーフレームの空間的特徴とそれらのグローバルな時間的ダイナミクスを組み合わせることにより、識別可能な時空間表現を学習することができます。理論的分析と経験的評価は、提案されたアプローチが、複数のベンチマークデータセットでの最先端の方法と比較して認識精度を改善したことを示しています。
As a spontaneous expression of emotion on face, micro-expression reveals the underlying emotion that cannot be controlled by human. In micro-expression, facial movement is transient and sparsely localized through time. However, the existing representation based on various deep learning techniques learned from a full video clip is usually redundant. In addition, methods utilizing the single apex frame of each video clip require expert annotations and sacrifice the temporal dynamics. To simultaneously localize and recognize such fleeting facial movements, we propose a novel end-to-end deep learning architecture, referred to as adaptive key-frame mining network (AKMNet). Operating on the video clip of micro-expression, AKMNet is able to learn discriminative spatio-temporal representation by combining spatial features of self-learned local key frames and their global-temporal dynamics. Theoretical analysis and empirical evaluation show that the proposed approach improved recognition accuracy in comparison with state-of-the-art methods on multiple benchmark datasets.
updated: Mon Mar 15 2021 07:53:54 GMT+0000 (UTC)
published: Sat Sep 19 2020 07:03:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト