arXiv reaDer
弱くラベル付けされたビデオを使用した痛みの強さの推定の順序回帰のためのディープドメイン適応
Deep Domain Adaptation for Ordinal Regression of Pain Intensity Estimation Using Weakly-Labelled Videos
ビデオでキャプチャされた顔の表情からの痛みの強さの推定は、ヘルスケアアプリケーションに計り知れない可能性を秘めています。顔の表情の主観的な変化や操作上のキャプチャ条件に関連する課題を考えると、顔の表情を認識するための最先端のDLモデルの精度が低下する可能性があります。ドメインの適応は、さまざまなソースドメインとターゲットドメインにわたってキャプチャされたビデオデータ間で通常発生するドメインシフトの問題を軽減するために広く検討されてきました。さらに、ビデオの収集と注釈付けの面倒な作業、および隣接する強度レベル間のあいまいさによる主観的なバイアスを考えると、このようなアプリケーションでは、弱教師あり学習が注目されています。最先端のWSLモデルは通常、回帰問題として定式化されており、痛みの強度レベル間の順序関係や、複数の連続するフレームの時間的コヒーレンスを利用していません。このホワイトペーパーでは、定期的に提供される粗いラベルを使用してターゲットドメインビデオを使用して適応できる、順序回帰を使用した弱教師ありDAの新しいDLモデルを紹介します。 WSDA-ORモデルは、ターゲットシーケンスに割り当てられた強度レベル間の順序関係を適用し、複数の関連フレームをシーケンスレベルのラベルに関連付けます。特に、複数のインスタンス学習を深い敵対的DAと統合することにより、判別およびドメイン不変の特徴表現を学習します。ソフトガウスラベルを使用して、ターゲットドメインからの弱い順序シーケンスレベルのラベルを効率的に表現します。提案されたアプローチは、完全にラベル付けされたソースドメインデータとしてRECOLAビデオデータセットを使用し、弱くラベル付けされたターゲットドメインデータとしてUNBC-McMaster肩痛ビデオデータセットを使用して検証されました。また、シーケンスレベルの推定のためにBIOVIDおよび疲労データセットでWSDA-ORを検証しました。
Estimation of pain intensity from facial expressions captured in videos has an immense potential for health care applications. Given the challenges related to subjective variations of facial expressions, and operational capture conditions, the accuracy of state-of-the-art DL models for recognizing facial expressions may decline. Domain adaptation has been widely explored to alleviate the problem of domain shifts that typically occur between video data captured across various source and target domains. Moreover, given the laborious task of collecting and annotating videos, and subjective bias due to ambiguity among adjacent intensity levels, weakly-supervised learning is gaining attention in such applications. State-of-the-art WSL models are typically formulated as regression problems, and do not leverage the ordinal relationship among pain intensity levels, nor temporal coherence of multiple consecutive frames. This paper introduces a new DL model for weakly-supervised DA with ordinal regression that can be adapted using target domain videos with coarse labels provided on a periodic basis. The WSDA-OR model enforces ordinal relationships among intensity levels assigned to target sequences, and associates multiple relevant frames to sequence-level labels. In particular, it learns discriminant and domain-invariant feature representations by integrating multiple instance learning with deep adversarial DA, where soft Gaussian labels are used to efficiently represent the weak ordinal sequence-level labels from target domain. The proposed approach was validated using RECOLA video dataset as fully-labeled source domain data, and UNBC-McMaster shoulder pain video dataset as weakly-labeled target domain data. We have also validated WSDA-OR on BIOVID and Fatigue datasets for sequence level estimation.
updated: Tue Mar 02 2021 02:24:36 GMT+0000 (UTC)
published: Thu Aug 13 2020 15:42:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト