arXiv reaDer
マルチレベルの一貫性に基づく弱教師付きマイクロおよびマクロ発現スポッティング
Weakly-supervised Micro- and Macro-expression Spotting Based on Multi-level Consistency
トリミングされていないビデオのほとんどのマイクロおよびマクロ式スポッティング方法は、ビデオごとのコレクションとフレームごとの注釈の負担に悩まされています。ビデオ レベルのラベルに基づく弱い教師あり式スポッティング (WES) は、フレーム レベルのアノテーションの複雑さを軽減しながら、きめ細かいフレーム レベルのスポッティングを実現できる可能性があります。ただし、既存の弱教師付きメソッドは、モダリティ間、サンプル間、およびタスク間ギャップを含む複数インスタンス学習 (MIL) に基づいていると主張します。サンプル間のギャップは、主にサンプルの分布と期間に起因します。したがって、モーダルレベルの顕著性、ビデオレベルの配信、ラベルレベルの持続時間、およびセグメントレベルの機能の一貫性戦略を含むマルチ一貫性のある協調メカニズムを使用して、細かいフレームレベルを実装する、斬新でシンプルな WES フレームワーク、MC-WES を提案します。上記のギャップを軽減し、以前の知識を統合するために、ビデオレベルのラベルのみを使用してスポッティングします。モーダル レベルの顕著性の一貫性戦略は、生の画像とオプティカル フローの間の重要な相関関係を捉えることに重点を置いています。ビデオ レベルの配信一貫性戦略は、時間配信の希薄性の違いを利用します。ラベル レベルの持続時間の一貫性戦略は、顔の筋肉の持続時間の違いを利用します。セグメント レベルの機能の一貫性戦略では、同じラベルの下の機能が類似性を維持することが強調されます。 2 つの困難なデータセット (CAS(ME)^2 と SAMM-LV) に関する実験結果は、MC-WES が最先端の完全教師あり方法に匹敵することを示しています。
Most micro- and macro-expression spotting methods in untrimmed videos suffer from the burden of video-wise collection and frame-wise annotation. Weakly-supervised expression spotting (WES) based on video-level labels can potentially mitigate the complexity of frame-level annotation while achieving fine-grained frame-level spotting. However, we argue that existing weakly-supervised methods are based on multiple instance learning (MIL) involving inter-modality, inter-sample, and inter-task gaps. The inter-sample gap is primarily from the sample distribution and duration. Therefore, we propose a novel and simple WES framework, MC-WES, using multi-consistency collaborative mechanisms that include modal-level saliency, video-level distribution, label-level duration and segment-level feature consistency strategies to implement fine frame-level spotting with only video-level labels to alleviate the above gaps and merge prior knowledge. The modal-level saliency consistency strategy focuses on capturing key correlations between raw images and optical flow. The video-level distribution consistency strategy utilizes the difference of sparsity in temporal distribution. The label-level duration consistency strategy exploits the difference in the duration of facial muscles. The segment-level feature consistency strategy emphasizes that features under the same labels maintain similarity. Experimental results on two challenging datasets -- CAS(ME)^2 and SAMM-LV -- demonstrate that MC-WES is comparable to state-of-the-art fully-supervised methods.
updated: Thu May 04 2023 11:14:47 GMT+0000 (UTC)
published: Thu May 04 2023 11:14:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト