arXiv reaDer
人間と機械での顔の表情認識の比較:CAM、GradCAM、および極度の摂動の使用
Comparing Facial Expression Recognition in Humans and Machines: Using CAM, GradCAM, and Extremal Perturbation
顔の表情の認識(FER)は、心理学と機械学習の両方で幅広いアプリケーションで重要な研究を引き付けるトピックです。人間のFERに関する豊富な研究と、ディープニューラルネットワーク(DNN)によって可能になった計算FERの大幅な進歩にもかかわらず、DNNが人間のパフォーマンスに匹敵する程度を比較する作業は比較的少なくなっています。この作業では、2つの代替強制選択FERタスク中の人間と機械の認識パフォーマンスと注意パターンを比較しました。ここでは、顔を徐々に明らかにするクリックデータを通じて人間の注意が収集されましたが、モデルの注意は、説明可能なAIからの3つの異なる一般的な手法、CAM、GradCAM、およびExtremalPerturbationを使用して取得されました。どちらの場合も、パフォーマンスは正解率として収集されました。このタスクでは、人間がマシンを大幅に上回っていることを発見しました。注意パターンに関しては、極度の摂動がタスク中の人間の注意マップに全体的に最もよく適合していることがわかりました。
Facial expression recognition (FER) is a topic attracting significant research in both psychology and machine learning with a wide range of applications. Despite a wealth of research on human FER and considerable progress in computational FER made possible by deep neural networks (DNNs), comparatively less work has been done on comparing the degree to which DNNs may be comparable to human performance. In this work, we compared the recognition performance and attention patterns of humans and machines during a two-alternative forced-choice FER task. Human attention was here gathered through click data that progressively uncovered a face, whereas model attention was obtained using three different popular techniques from explainable AI: CAM, GradCAM and Extremal Perturbation. In both cases, performance was gathered as percent correct. For this task, we found that humans outperformed machines quite significantly. In terms of attention patterns, we found that Extremal Perturbation had the best overall fit with the human attention map during the task.
updated: Sat Oct 09 2021 06:54:41 GMT+0000 (UTC)
published: Sat Oct 09 2021 06:54:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト