最近の教師あり深層学習法では、顔のビデオを使用して心拍数をリモートで測定できることが示されています。ただし、これらの教師あり手法のパフォーマンスは、大規模なラベル付きデータの可用性に依存しており、3D時空間情報を十分に活用していない2D深層学習アーキテクチャに限定されています。この問題を解決するために、顔のビデオのリモートHR推定のための新しい3D自己教師あり時空間学習フレームワークを提示します。具体的には、シェーファーの二色反射モデルに基づいて顔をいくつかの有益な部分に分割するランドマークベースの空間拡張と、信号モデリング能力を強化するためにナイキストシャノンサンプリング定理を利用する新しいスパース性ベースの時間拡張を提案します。 3つの公開データセットでメソッドを評価し、他の自己教師ありメソッドを上回り、最先端の教師ありメソッドで競争力のある精度を達成しました。
Recent supervised deep learning methods have shown that heart rate can be measured remotely using facial videos. However, the performance of these supervised method are dependent on the availability of large-scale labelled data and they have been limited to 2D deep learning architectures that do not fully exploit the 3D spatiotemporal information. To solve this problem, we present a novel 3D self-supervised spatiotemporal learning framework for remote HR estimation on facial videos. Concretely, we propose a landmark-based spatial augmentation which splits the face into several informative parts based on the Shafer's dichromatic reflection model and a novel sparsity-based temporal augmentation exploiting Nyquist-Shannon sampling theorem to enhance the signal modelling ability. We evaluated our method on 3 public datasets and outperformed other self-supervised methods and achieved competitive accuracy with the state-of-the-art supervised methods.