arXiv reaDer
私のモデルのどこがパフォーマンスを下回っているのでしょうか?スライス発見アルゴリズムの人による評価
Where Does My Model Underperform? A Human Evaluation of Slice Discovery Algorithms
高い平均精度を達成する機械学習 (ML) モデルは、意味的に一貫したデータのサブセット (つまり、「スライス」) では依然としてパフォーマンスが低下する可能性があります。この動作は、展開時のモデルの安全性や偏りに対して重大な社会的影響を与える可能性がありますが、これらのパフォーマンスの低いスライスを特定することは、実際には困難になる可能性があり、特に実践者がデータの一貫したサブセットを定義するためのグループ アノテーションにアクセスできない領域では困難です。これらの課題に動機付けられ、ML 研究者は、一貫性がありエラーの多いデータのサブセットをグループ化することを目的とした、新しいスライス検出アルゴリズムを開発しました。しかし、これらのツールが人間がモデルのどこ(どのグループ)でパフォーマンスを下回っているかについて正しい仮説を立てるのに役立つかどうかに焦点を当てた評価はほとんど行われていない。私たちは、管理されたユーザー調査 (N = 15) を実施します。そこでは、2 つの最先端のスライス検出アルゴリズムによって出力された 40 個のスライスをユーザーに示し、物体検出モデルのパフォーマンスが低下している箇所について仮説を立てるよう求めます。私たちの結果は、これらのツールが単純なベースラインよりも何らかの利点を提供するという肯定的な証拠を提供し、仮説形成ステップでユーザーが直面する課題も明らかにします。最後に、ML および HCI 研究者にとっての設計の機会について説明します。私たちの調査結果は、スライス発見のための新しいツールを設計および評価する際に、ユーザーを中心に置くことが重要であることを示しています。
Machine learning (ML) models that achieve high average accuracy can still underperform on semantically coherent subsets (i.e. "slices") of data. This behavior can have significant societal consequences for the safety or bias of the model in deployment, but identifying these underperforming slices can be difficult in practice, especially in domains where practitioners lack access to group annotations to define coherent subsets of their data. Motivated by these challenges, ML researchers have developed new slice discovery algorithms that aim to group together coherent and high-error subsets of data. However, there has been little evaluation focused on whether these tools help humans form correct hypotheses about where (for which groups) their model underperforms. We conduct a controlled user study (N = 15) where we show 40 slices output by two state-of-the-art slice discovery algorithms to users, and ask them to form hypotheses about where an object detection model underperforms. Our results provide positive evidence that these tools provide some benefit over a naive baseline, and also shed light on challenges faced by users during the hypothesis formation step. We conclude by discussing design opportunities for ML and HCI researchers. Our findings point to the importance of centering users when designing and evaluating new tools for slice discovery.
updated: Tue Jun 13 2023 22:44:53 GMT+0000 (UTC)
published: Tue Jun 13 2023 22:44:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト