arXiv reaDer
時空間増強損失を使用した遠隔生理学的測定のための自己監視表現学習フレームワーク
Self-supervised Representation Learning Framework for Remote Physiological Measurement Using Spatiotemporal Augmentation Loss
教師あり深層学習法の最近の進歩により、顔のビデオを使用したフォトプレチスモグラフィーベースの生理学的信号のリモート測定が可能になっています。ただし、これらの監視ありメソッドのパフォーマンスは、大きなラベル付きデータの可用性に依存します。自己監視方式としての対照学習は、最近、異なる拡張ビュー間の相互情報量を最大化することにより、代表的なデータ機能の学習において最先端のパフォーマンスを実現しました。ただし、対照的な学習のための既存のデータ拡張技術は、ビデオから生理学的信号を学習するようには設計されておらず、ビデオフレーム間に複雑なノイズと微妙で周期的な色または形状の変化がある場合に失敗することがよくあります。これらの問題に対処するために、ラベル付けされたトレーニングデータが不足しているリモート生理学的信号表現学習のための新しい自己監視時空間学習フレームワークを提示します。まず、シェーファーの二色性反射モデルに基づいて顔をいくつかの有益な部分に分割し、微妙な肌の色の変動を特徴付ける、ランドマークベースの空間拡張を提案します。また、生理学的信号の特徴をモデル化することにより、周期的な時間的変化を効果的にキャプチャするために、ナイキスト-シャノンサンプリング定理を利用したスパース性ベースの時間的拡張を定式化します。さらに、拡張ビデオクリップの疑似ラベルを生成する制約付き時空間損失を導入します。トレーニングプロセスを調整し、複雑なノイズを処理するために使用されます。 3つの公開データセットでフレームワークを評価し、他の自己教師あり手法よりも優れたパフォーマンスを示し、最先端の教師あり手法と比較して競争力のある精度を達成しました。
Recent advances in supervised deep learning methods are enabling remote measurements of photoplethysmography-based physiological signals using facial videos. The performance of these supervised methods, however, are dependent on the availability of large labelled data. Contrastive learning as a self-supervised method has recently achieved state-of-the-art performances in learning representative data features by maximising mutual information between different augmented views. However, existing data augmentation techniques for contrastive learning are not designed to learn physiological signals from videos and often fail when there are complicated noise and subtle and periodic colour or shape variations between video frames. To address these problems, we present a novel self-supervised spatiotemporal learning framework for remote physiological signal representation learning, where there is a lack of labelled training data. Firstly, we propose a landmark-based spatial augmentation that splits the face into several informative parts based on the Shafer dichromatic reflection model to characterise subtle skin colour fluctuations. We also formulate a sparsity-based temporal augmentation exploiting Nyquist-Shannon sampling theorem to effectively capture periodic temporal changes by modelling physiological signal features. Furthermore, we introduce a constrained spatiotemporal loss which generates pseudo-labels for augmented video clips. It is used to regulate the training process and handle complicated noise. We evaluated our framework on 3 public datasets and demonstrated superior performances than other self-supervised methods and achieved competitive accuracy compared to the state-of-the-art supervised methods.
updated: Tue Dec 14 2021 05:55:43 GMT+0000 (UTC)
published: Fri Jul 16 2021 04:00:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト