arXiv reaDer
アダプティブキーフレームマイニングによるビデオクリップのマイクロエクスプレッションの認識
Recognizing Micro-Expression in Video Clip with Adaptive Key-Frame Mining
顔の感情の自発的な表現として、マイクロ表現は感情コンピューティングコミュニティからますます注目を集めています。さまざまな深層学習(DL)手法によって認識精度が向上しますが、マイクロエクスプレッションの特徴の1つは十分に活用されていません。つまり、そのような顔の動きは一時的であり、時間の経過とともにまばらに局所化されます。したがって、完全なビデオクリップから学習した表現は通常冗長です。一方、単一の頂点フレームを利用する方法では、手動の注釈が必要であり、時間的ダイナミクスが犠牲になります。このようなつかの間の顔の動きを同時にローカライズして認識するために、Adaptive Key-frame Mining Network(AKMNet)と呼ばれる新しいエンドツーエンドのディープラーニングアーキテクチャを提案します。微妙な表現の生のビデオクリップを操作して、AKMNetは、自己学習したローカルキーフレームの空間的特徴とそれらのグローバルな時間的ダイナミクスを組み合わせることにより、識別可能な時空間表現を学習することができます。経験的および理論的評価は、パフォーマンスが向上した提案されたアプローチの利点を示しています。
As a spontaneous expression of emotion on face, micro-expression is receiving increasing attention from the affective computing community. Whist better recognition accuracy is achieved by various deep learning (DL) techniques, one characteristic of micro-expression has been not fully exploited. That is, such facial movement is transient and sparsely localized through time. Therefore, the representation learned from a full video clip is usually redundant. On the other hand, methods utilizing the single apex frame require manual annotations and sacrifice the temporal dynamics. To simultaneously localize and recognize such fleeting facial movements, we propose a novel end-to-end deep learning architecture, referred to as Adaptive Key-frame Mining Network (AKMNet). Operating on the raw video clip of micro-expression, AKMNet is able to learn discriminative spatio-temporal representation by combining spatial features of self-learned local key frames and their global-temporal dynamics. Empirical and theoretical evaluations show advantages of the proposed approach with improved performance.
updated: Wed Mar 03 2021 14:38:06 GMT+0000 (UTC)
published: Sat Sep 19 2020 07:03:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト