arXiv reaDer
対照学習による半教師ありAU強度推定
Semi-supervised AU Intensity Estimation with Contrastive Learning
この論文は、ラベル付けされた画像がほとんどない顔面アクションユニットの強度を推定するという難しい問題に取り組んでいます。以前の作品とは異なり、私たちの方法は手動でキーフレームを選択する必要がなく、ランダムに選択された注釈付きフレームのわずか2%で最先端の結果を生成します。この目的のために、特徴抽出器と時間モジュールを組み合わせた時空間モデルを2段階で学習する半教師あり学習アプローチを提案します。最初の段階では、ラベルのないビデオのデータセットを使用して、対照的な学習に基づいて顔の行動のダイナミクスの強力な時空間表現を学習します。私たちの知る限り、教師なしの方法で顔の行動をモデル化するために、このフレームワークを最初に構築しました。第2段階では、ランダムに選択されたラベル付きフレームの別のデータセットを使用して、AU強度を推定するための時空間モデルの上にリグレッサをトレーニングします。時間による逆伝播は、非常にスパースでランダムに選択されたラベル付きフレームのネットワークの出力に関してのみ適用されますが、第1段階の教師なし事前トレーニングのおかげで、モデルを効果的にトレーニングしてAU強度を正確に推定できることを示します。 。ラベル付けされたフレームを慎重に選択せずに、DISFAデータセットとBP4Dデータセットの両方でランダムに選択されたデータのわずか2%で作業する場合、以前のアプローチではまだ時間のかかる作業であるため、この方法が既存の方法よりも優れていることを実験的に検証します。
This paper tackles the challenging problem of estimating the intensity of Facial Action Units with few labeled images. Contrary to previous works, our method does not require to manually select key frames, and produces state-of-the-art results with as little as 2% of annotated frames, which are randomly chosen. To this end, we propose a semi-supervised learning approach where a spatio-temporal model combining a feature extractor and a temporal module are learned in two stages. The first stage uses datasets of unlabeled videos to learn a strong spatio-temporal representation of facial behavior dynamics based on contrastive learning. To our knowledge we are the first to build upon this framework for modeling facial behavior in an unsupervised manner. The second stage uses another dataset of randomly chosen labeled frames to train a regressor on top of our spatio-temporal model for estimating the AU intensity. We show that although backpropagation through time is applied only with respect to the output of the network for extremely sparse and randomly chosen labeled frames, our model can be effectively trained to estimate AU intensity accurately, thanks to the unsupervised pre-training of the first stage. We experimentally validate that our method outperforms existing methods when working with as little as 2% of randomly chosen data for both DISFA and BP4D datasets, without a careful choice of labeled frames, a time-consuming task still required in previous approaches.
updated: Tue Nov 03 2020 17:35:57 GMT+0000 (UTC)
published: Tue Nov 03 2020 17:35:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト