医療などのリスクの高い環境での人工知能 (AI) の展開には、解釈可能性/説明可能性を提供する方法、またはきめ細かいエラー分析を可能にする方法が重要です。解釈可能性/説明可能性およびきめ細かなエラー分析のための最近の多くの方法は、人間にとって意味的に意味のあるメタラベルである概念を使用しています。ただし、概念レベルのメタラベルを含むデータセットはごくわずかであり、これらのメタラベルのほとんどは、ドメインの専門知識を必要としない自然画像に関連しています。メラノーマなどの単一の疾患に関連するメタラベルに焦点を当てた、医学における密に注釈が付けられたデータセット。皮膚科では、臨床医が身体検査の所見を互いに説明できるようにする確立された臨床用語集を使用して、皮膚疾患が説明されます。複数の疾患プロセスにまたがる有用な注釈を使用して、ドメインの専門家によって高密度に注釈が付けられた医療データセットを提供するために、皮膚科医によって高密度に注釈が付けられた皮膚疾患データセットである SkinCon を開発しました。 SkinCon には、Fitzpatrick 17k データセットからの 3230 枚の画像が含まれており、48 の臨床コンセプトで密に注釈が付けられています。そのうち 22 枚には、コンセプトを表す少なくとも 50 枚の画像があります。使用される概念は、皮膚病変を説明するために使用される臨床記述子用語を考慮して、2 人の皮膚科医によって選択されました。例としては、「歯垢」、「鱗屑」、「浸食」などがあります。 Diverse Dermatology Images データセットからの 656 枚の皮膚疾患画像にラベルを付けるためにも同じ概念が使用され、多様な肌色表現を含む追加の外部データセットが提供されました。調査モデル、概念ベースの説明、概念のボトルネックなど、SkinCon データセットの潜在的なアプリケーションを確認します。さらに、SkinCon を使用して、これらのユース ケースの 2 つを示します。概念を使用して既存の皮膚科 AI モデルの間違いをデバッグし、ポストホック コンセプトのボトルネック モデルを使用して解釈可能なモデルを開発します。
For the deployment of artificial intelligence (AI) in high-risk settings, such as healthcare, methods that provide interpretability/explainability or allow fine-grained error analysis are critical. Many recent methods for interpretability/explainability and fine-grained error analysis use concepts, which are meta-labels that are semantically meaningful to humans. However, there are only a few datasets that include concept-level meta-labels and most of these meta-labels are relevant for natural images that do not require domain expertise. Densely annotated datasets in medicine focused on meta-labels that are relevant to a single disease such as melanoma. In dermatology, skin disease is described using an established clinical lexicon that allows clinicians to describe physical exam findings to one another. To provide a medical dataset densely annotated by domain experts with annotations useful across multiple disease processes, we developed SkinCon: a skin disease dataset densely annotated by dermatologists. SkinCon includes 3230 images from the Fitzpatrick 17k dataset densely annotated with 48 clinical concepts, 22 of which have at least 50 images representing the concept. The concepts used were chosen by two dermatologists considering the clinical descriptor terms used to describe skin lesions. Examples include "plaque", "scale", and "erosion". The same concepts were also used to label 656 skin disease images from the Diverse Dermatology Images dataset, providing an additional external dataset with diverse skin tone representations. We review the potential applications for the SkinCon dataset, such as probing models, concept-based explanations, and concept bottlenecks. Furthermore, we use SkinCon to demonstrate two of these use cases: debugging mistakes of an existing dermatology AI model with concepts and developing interpretable models with post-hoc concept bottleneck models.