心拍数(HR)は、人の身体的および感情的な状態を反映する重要な生理学的信号です。従来のHR測定は通常、接触モニターに依存しているため、不便や不快感を引き起こす可能性があります。最近、顔ビデオからのリモートHR推定のためのいくつかの方法が提案されています。ただし、それらのほとんどはよく制御されたシナリオに焦点を当てており、制約の少ないシナリオ(たとえば、頭の動きや照明が悪い)への一般化能力は不明です。同時に、大規模なHRデータベースが不足しているため、リモートHR推定のためのディープモデルの使用が制限されています。この論文では、顔からのリモートHR推定のためのエンドツーエンドのRhythmNetを提案します。 RyhthmNetでは、複数のROIボリュームからのHR信号を入力としてエンコードする時空間表現を使用します。次に、時空間表現がHR推定のために畳み込みネットワークに供給されます。また、ゲーテッドリカレントユニット(GRU)を介したビデオシーケンスからの隣接するHR測定の関係を考慮し、効率的なHR測定を実現します。さらに、大規模なマルチモーダルHRデータベース(VIPL-HRという名前、「http://vipl.ict.ac.cn/view_database.php?id=15」で入手可能)を構築します。 107件の被写体のライトビデオ(VIS)および752近赤外線(NIR)ビデオ。 VIPL-HRデータベースには、頭部の動き、照明の変化、取得デバイスの変更など、さまざまなバリエーションが含まれており、HR推定の制約の少ないシナリオを再現しています。提案されたアプローチは、パブリックドメインとVIPL-HRデータベースの両方で最先端の方法よりも優れています。
Heart rate (HR) is an important physiological signal that reflects the physical and emotional status of a person. Traditional HR measurements usually rely on contact monitors, which may cause inconvenience and discomfort. Recently, some methods have been proposed for remote HR estimation from face videos; however, most of them focus on well-controlled scenarios, their generalization ability into less-constrained scenarios (e.g., with head movement, and bad illumination) are not known. At the same time, lacking large-scale HR databases has limited the use of deep models for remote HR estimation. In this paper, we propose an end-to-end RhythmNet for remote HR estimation from the face. In RyhthmNet, we use a spatial-temporal representation encoding the HR signals from multiple ROI volumes as its input. Then the spatial-temporal representations are fed into a convolutional network for HR estimation. We also take into account the relationship of adjacent HR measurements from a video sequence via Gated Recurrent Unit (GRU) and achieves efficient HR measurement. In addition, we build a large-scale multi-modal HR database (named as VIPL-HR, available at 'http://vipl.ict.ac.cn/view_database.php?id=15'), which contains 2,378 visible light videos (VIS) and 752 near-infrared (NIR) videos of 107 subjects. Our VIPL-HR database contains various variations such as head movements, illumination variations, and acquisition device changes, replicating a less-constrained scenario for HR estimation. The proposed approach outperforms the state-of-the-art methods on both the public-domain and our VIPL-HR databases.