arXiv reaDer
筋肉の動きと顔マニホールドの埋め込みを使用したビデオからの (隠れた) 感情の検出
Detection of (Hidden) Emotions from Videos using Muscles Movements and Face Manifold Embedding
大量の被験者に対して、非侵襲的で拡張が容易な新しい方法と、人間の顔のビデオから (隠された) 感情を検出するためのリモート アクセス可能な方法を提供します。私たちのアプローチは、ビデオ内の顔の正確な位置を特定するための顔マニホールド検出とローカル顔マニホールド埋め込みを組み合わせて、ビデオ内の被写体の動きに不変な筋肉の微動の測定のための共通ドメインを作成します。次のステップでは、デジタル画像スペックル相関 (DISC) とオプティカル フロー アルゴリズムを使用して、顔の微小な動きのパターンを計算します。対応するベクトル フィールドが元の空間にマッピングされ、ビデオの元のフレームに重ねられます。したがって、結果のビデオには、顔の筋肉の動きの方向に関する追加情報が含まれます。公開されている目に見える感情の CK++ データセットを取得し、同じ形式のビデオを追加しますが、感情は隠されています。微動検出を使用してすべてのビデオを処理し、その結果を使用して、ビデオから感情を分類する最先端のネットワークである Frame Attention Network (FAN) をトレーニングします。元の FAN モデルは、元の CK++ ビデオで非常に高いサンプル外のパフォーマンスを達成しますが、隠された感情のビデオではそれほどうまく機能しません。筋肉の動きのベクトル フィールドを使用してモデルをトレーニングし、ビデオでテストすると、パフォーマンスが大幅に向上します。直観的に、対応する矢印は画像内のエッジとして機能し、FAN ネットワークの畳み込みフィルターによって簡単にキャプチャされます。
We provide a new non-invasive, easy-to-scale for large amounts of subjects and a remotely accessible method for (hidden) emotion detection from videos of human faces. Our approach combines face manifold detection for accurate location of the face in the video with local face manifold embedding to create a common domain for the measurements of muscle micro-movements that is invariant to the movement of the subject in the video. In the next step, we employ the Digital Image Speckle Correlation (DISC) and the optical flow algorithm to compute the pattern of micro-movements in the face. The corresponding vector field is mapped back to the original space and superimposed on the original frames of the videos. Hence, the resulting videos include additional information about the direction of the movement of the muscles in the face. We take the publicly available CK++ dataset of visible emotions and add to it videos of the same format but with hidden emotions. We process all the videos using our micro-movement detection and use the results to train a state-of-the-art network for emotions classification from videos -- Frame Attention Network (FAN). Although the original FAN model achieves very high out-of-sample performance on the original CK++ videos, it does not perform so well on hidden emotions videos. The performance improves significantly when the model is trained and tested on videos with the vector fields of muscle movements. Intuitively, the corresponding arrows serve as edges in the image that are easily captured by the convolutions filters in the FAN network.
updated: Tue Nov 01 2022 02:48:35 GMT+0000 (UTC)
published: Tue Nov 01 2022 02:48:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト