arXiv reaDer
Estimating Skin Tone and Effects on Classification Performance in Dermatology Datasets
 コンピュータービジョンとディープラーニングの最近の進歩により、自動化された肌画像分析の開発にブレークスルーがもたらされました。特に、皮膚がんの分類モデルは、訓練を受けた専門の皮膚科医よりも高いパフォーマンスを達成しています。ただし、さまざまな肌のトーンの母集団にわたる機械学習モデルのパフォーマンスの一貫性を評価する試みは行われていません。このホワイトペーパーでは、ベンチマーク皮膚疾患データセットで肌の色調を推定するアプローチを提示し、モデルのパフォーマンスがこの指標に依存しているかどうかを調査します。具体的には、個々の類型角度(ITA)を使用して、皮膚科データセットの肌の色調を近似します。 ITA値の分布を見て、2つのベンチマークデータセットの肌色表現をよりよく理解します:1)ISIC 2018 Challengeデータセット、皮膚がんの検出のための皮膚病変の皮膚鏡画像のコレクション、2)SD-198データセット、さまざまな皮膚疾患を撮影した臨床画像のコレクション。 ITAを推定するために、最初にセグメンテーションモデルを開発して、皮膚の非疾患領域を分離します。 2つのデータセットのデータの大部分のITA値は34.5°から48°であり、これは明るい肌に関連付けられており、これらのデータセットの暗い肌の人口の過小表現と一致していることがわかります。また、機械学習モデルのパフォーマンスとITA値の間には測定可能な相関関係はありませんが、さらなる検証にはより包括的なデータが必要です。
Recent advances in computer vision and deep learning have led to breakthroughs in the development of automated skin image analysis. In particular, skin cancer classification models have achieved performance higher than trained expert dermatologists. However, no attempt has been made to evaluate the consistency in performance of machine learning models across populations with varying skin tones. In this paper, we present an approach to estimate skin tone in benchmark skin disease datasets, and investigate whether model performance is dependent on this measure. Specifically, we use individual typology angle (ITA) to approximate skin tone in dermatology datasets. We look at the distribution of ITA values to better understand skin color representation in two benchmark datasets: 1) the ISIC 2018 Challenge dataset, a collection of dermoscopic images of skin lesions for the detection of skin cancer, and 2) the SD-198 dataset, a collection of clinical images capturing a wide variety of skin diseases. To estimate ITA, we first develop segmentation models to isolate non-diseased areas of skin. We find that the majority of the data in the the two datasets have ITA values between 34.5° and 48°, which are associated with lighter skin, and is consistent with under-representation of darker skinned populations in these datasets. We also find no measurable correlation between performance of machine learning model and ITA values, though more comprehensive data is needed for further validation.
updated: Tue Oct 29 2019 13:48:17 GMT+0000 (UTC)
published: Tue Oct 29 2019 13:48:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト