arXiv reaDer
画像ベースおよび自己報告の皮膚表現型メトリクスの信頼性と妥当性
Reliability and Validity of Image-Based and Self-Reported Skin Phenotype Metrics
顔認識システムの採用が増えるにつれ、人口統計グループ全体でこれらのテクノロジーの適切なパフォーマンスを確保することが重要になります。最近、肌の色などの表現型が、パフォーマンスの違いを調査する際に、従来の人種カテゴリの優れた代替手段として提案されています。ただし、生体認証のパフォーマンスの評価やAIでより広く肌の色を適切に測定する方法については、ほとんどコンセンサスがありません。この研究では、画像から推定された顔の面積の明度の測定値(FALM)と、人間の皮膚を測定するように設計されたデバイスを使用して収集されたグラウンドトゥルースの皮膚の読み取り値との関係を調査します。同じ個人の異なる画像から推定されたFALMは、グラウンドトゥルースFALMと比較して大幅に異なります。この変動は、取得(カメラ、背景、環境)をより細かく制御することによってのみ減少しました。次に、グラウンドトゥルースFALMを、標準の対面医療調査を使用して取得したフィッツパトリック肌タイプ(FST)カテゴリと比較し、FSTが肌の色調を十分に予測できないことを示します。最後に、FALMのノイズの多い推定が、人口統計学的差異の説明要素の選択エラーにどのようにつながるかを示します。これらの結果は、生体認証のパフォーマンス評価のための肌の色の測定は、客観的で、特徴づけられ、制御された情報源から来なければならないことを示しています。さらに、これは現在実践されているアプローチであるにもかかわらず、制御されていない画像からFSTカテゴリとFALMを推定しても、肌の色調を適切に測定することはできません。
With increasing adoption of face recognition systems, it is important to ensure adequate performance of these technologies across demographic groups. Recently, phenotypes such as skin-tone, have been proposed as superior alternatives to traditional race categories when exploring performance differentials. However, there is little consensus regarding how to appropriately measure skin-tone in evaluations of biometric performance or in AI more broadly. In this study, we explore the relationship between face-area-lightness-measures (FALMs) estimated from images and ground-truth skin readings collected using a device designed to measure human skin. FALMs estimated from different images of the same individual varied significantly relative to ground-truth FALM. This variation was only reduced by greater control of acquisition (camera, background, and environment). Next, we compare ground-truth FALM to Fitzpatrick Skin Types (FST) categories obtained using the standard, in-person, medical survey and show FST is poorly predictive of skin-tone. Finally, we show how noisy estimation of FALM leads to errors selecting explanatory factors for demographic differentials. These results demonstrate that measures of skin-tone for biometric performance evaluations must come from objective, characterized, and controlled sources. Further, despite this being a currently practiced approach, estimating FST categories and FALMs from uncontrolled imagery does not provide an appropriate measure of skin-tone.
updated: Fri Jun 18 2021 16:12:24 GMT+0000 (UTC)
published: Fri Jun 18 2021 16:12:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト