機械学習で非常に興味深い問題は、モデルが分類するのにどの例が難しいかを理解することです。非定型の例を特定することで、モデルの安全な展開が保証され、さらに人間による検査が必要なサンプルが分離され、モデルの動作に解釈可能性がもたらされます。この作業では、データを難易度でランク付けし、ヒューマンインザループ監査の最も困難な例の扱いやすいサブセットを明らかにするための貴重で効率的なメトリックとして、Variance of Gradients(VoG)を提案します。 VoGスコアが高いデータポイントは、モデルが学習し、破損した例や記憶された例のインデックスを作成するのがはるかに難しいことを示しています。さらに、評価をVoGが最も低いテストセットインスタンスに制限すると、モデルの一般化パフォーマンスが向上します。最後に、VoGが分布外検出のための価値のある効率的なランキングであることを示します。
In machine learning, a question of great interest is understanding what examples are challenging for a model to classify. Identifying atypical examples ensures the safe deployment of models, isolates samples that require further human inspection and provides interpretability into model behavior. In this work, we propose Variance of Gradients (VoG) as a valuable and efficient metric to rank data by difficulty and to surface a tractable subset of the most challenging examples for human-in-the-loop auditing. We show that data points with high VoG scores are far more difficult for the model to learn and over-index on corrupted or memorized examples. Further, restricting the evaluation to the test set instances with the lowest VoG improves the model's generalization performance. Finally, we show that VoG is a valuable and efficient ranking for out-of-distribution detection.