概念の発見は、非深層学習の専門家とモデルのエンドユーザーの間のギャップを埋めるために重要な解釈可能性の文献の未解決の問題の1つです。現在の定式化の中で、概念はそれらを学習された表現空間の方向として定義します。この定義により、特定の概念が対象のクラスの分類決定に大きく影響するかどうかを評価できます。ただし、表現スペースは高次元でナビゲートが難しいため、関連する概念を見つけるのは面倒です。現在のアプローチには、コンセプトデータセットを手作りし、それらを潜在的な空間方向に変換することが含まれます。あるいは、潜在空間をクラスター化することでプロセスを自動化することもできます。この研究では、意味のある概念のユーザー発見を導くための別の2つのアプローチを提供します。1つは多重仮説検定に基づいており、もう1つはインタラクティブな視覚化に基づいています。シミュレーション実験と実際のデータへのデモビジュアルインターフェイスを通じて、これらのアプローチの潜在的な価値と限界を探ります。全体として、これらの手法は、ユーザーが事前定義された説明を持っていないが、プロセスを完全に自動化することなく、設定で関連する概念を発見するための有望な戦略を提供することがわかります。
Concept discovery is one of the open problems in the interpretability literature that is important for bridging the gap between non-deep learning experts and model end-users. Among current formulations, concepts defines them by as a direction in a learned representation space. This definition makes it possible to evaluate whether a particular concept significantly influences classification decisions for classes of interest. However, finding relevant concepts is tedious, as representation spaces are high-dimensional and hard to navigate. Current approaches include hand-crafting concept datasets and then converting them to latent space directions; alternatively, the process can be automated by clustering the latent space. In this study, we offer another two approaches to guide user discovery of meaningful concepts, one based on multiple hypothesis testing, and another on interactive visualization. We explore the potential value and limitations of these approaches through simulation experiments and an demo visual interface to real data. Overall, we find that these techniques offer a promising strategy for discovering relevant concepts in settings where users do not have predefined descriptions of them, but without completely automating the process.