arXiv reaDer
表情認識モデルのドメイン一般化可能性を批判的に調べる
Critically examining the Domain Generalizability of Facial Expression Recognition models
顔の表情認識は商業的に重要なアプリケーションですが、過小評価されている制限の 1 つは、そのようなアプリケーションでは、モデルがトレーニングされた画像とは異なる特性を持つターゲット画像のサンプル分布を予測する必要があることです。顔の表情認識モデルは、目に見えないターゲット ドメインでどの程度うまく機能するか、またはどの程度悪く機能するか?表情認識における転移学習、特にドメインの一般化の体系的かつ批判的な評価を提供します。 12 個のデータセット (ラボで収集された 6 個と「実際に使用されている」6 個のデータセット) を持つ最新のモデルを使用して、大規模なラウンド ロビン スタイルの実験を行い、新しいデータが与えられたときの分類精度を評価します。また、(i) 設定内 (例: ラボからラボ)、(ii) クロス設定 (例: in-the- (iii) leave-one-out 設定. 最後に、結果を 3 つの市販のソフトウェアと比較します. 冷静な結果が見つかりました: シングルソース ドメインとマルチソース ドメインの一般化の精度はわずかです.最もパフォーマンスの高いマルチソース設定では、65.6% の平均分類精度 (範囲: 34.6% ~ 88.6%、確率: 14.3%) が観察されました。これは、コーパス内分類パフォーマンスから平均 10.8 パーセント ポイント低下することに相当します (平均: 76.4%). ジェネラリザブに対する定期的で体系的な調査の必要性について議論します。情動コンピューティングのモデルとアプリケーションの能力。
Facial Expression Recognition is a commercially-important application, but one under-appreciated limitation is that such applications require making predictions on out-of-sample distributions, where target images have different properties from the images the model was trained on. How well -- or how badly -- do facial expression recognition models do on unseen target domains? We provide a systematic and critical evaluation of transfer learning -- specifically, domain generalization -- in facial expression recognition. Using a state-of-the-art model with twelve datasets (six collected in-lab and six ``in-the-wild"), we conduct extensive round-robin-style experiments to evaluate classification accuracies when given new data from an unseen dataset. We also perform multi-source experiments to examine a model's ability to generalize from multiple source datasets, including (i) within-setting (e.g., lab to lab), (ii) cross-setting (e.g., in-the-wild to lab), and (iii) leave-one-out settings. Finally, we compare our results with three commercially-available software. We find sobering results: the accuracy of single- and multi-source domain generalization is only modest. Even for the best-performing multi-source settings, we observe average classification accuracies of 65.6% (range: 34.6%-88.6%; chance: 14.3%), corresponding to an average drop of 10.8 percentage points from the within-corpus classification performance (mean: 76.4%). We discuss the need for regular, systematic investigations into the generalizability of affective computing models and applications.
updated: Wed Mar 08 2023 20:54:12 GMT+0000 (UTC)
published: Tue Jun 29 2021 14:41:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト