カメラベースの生理学的測定は、最先端のパフォーマンスを提供するニューラルモデルを備えた成長分野です。以前の調査では、さまざまな「エンドツーエンド」モデルが調査されてきました。ただし、これらのメソッドには、まだいくつかの前処理ステップが必要です。これらの追加の操作は、多くの場合、実装が簡単ではなく、レプリケーションと展開を困難にし、「コア」ネットワーク自体よりも高い計算バジェットを持つ可能性があります。この論文では、顔検出、セグメンテーション、正規化、色空間変換、またはその他の前処理ステップの必要性を排除する、EfficientPhysと呼ばれるカメラベースの生理学的測定のための2つの新規で効率的なニューラルモデルを提案します。生のビデオフレームの入力を使用して、私たちのモデルは3つの公開データセットで強力なパフォーマンスを実現します。これは、トランスを使用する場合でも畳み込みバックボーンを使用する場合でも同じであることを示します。提案されたネットワークの遅延をさらに評価し、最も軽量なネットワークでも効率が33%向上することを示しています。
Camera-based physiological measurement is a growing field with neural models providing state-the-art-performance. Prior research have explored various "end-to-end" models; however these methods still require several preprocessing steps. These additional operations are often non-trivial to implement making replication and deployment difficult and can even have a higher computational budget than the "core" network itself. In this paper, we propose two novel and efficient neural models for camera-based physiological measurement called EfficientPhys that remove the need for face detection, segmentation, normalization, color space transformation or any other preprocessing steps. Using an input of raw video frames, our models achieve strong performance on three public datasets. We show that this is the case whether using a transformer or convolutional backbone. We further evaluate the latency of the proposed networks and show that our most light weight network also achieves a 33% improvement in efficiency.