Distribution-Free, Risk-Controlling Prediction Sets
近年、予測精度の向上が機械学習の焦点となっていますが、これだけでは信頼できる意思決定には不十分です。結果として生じる設定で学習システムを展開するには、予測の不確実性を調整して伝達する必要もあります。予測タスクのインスタンスごとの不確実性を伝えるために、ユーザー指定レベルで将来のテストポイントの期待損失を制御するブラックボックス予測子から設定値の予測を生成する方法を示します。私たちのアプローチは、ホールドアウトセットを使用して予測セットのサイズを調整することにより、任意のデータセットに明示的な有限サンプル保証を提供します。このフレームワークにより、多くのタスクでシンプルで分散のない厳密なエラー制御が可能になり、5つの大規模な機械学習の問題でそれを示します。 (2)マルチラベル分類。各観測には複数のラベルが関連付けられています。 (3)ラベルが階層構造を持っている分類問題。 (4)画像セグメンテーション。対象のオブジェクトを含むピクセルのセットを予測します。 (5)タンパク質構造予測。最後に、ランク付け、メトリック学習、および分布的にロバストな学習のための不確実性定量化の拡張について説明します。
While improving prediction accuracy has been the focus of machine learning in recent years, this alone does not suffice for reliable decision-making. Deploying learning systems in consequential settings also requires calibrating and communicating the uncertainty of predictions. To convey instance-wise uncertainty for prediction tasks, we show how to generate set-valued predictions from a black-box predictor that control the expected loss on future test points at a user-specified level. Our approach provides explicit finite-sample guarantees for any dataset by using a holdout set to calibrate the size of the prediction sets. This framework enables simple, distribution-free, rigorous error control for many tasks, and we demonstrate it in five large-scale machine learning problems: (1) classification problems where some mistakes are more costly than others; (2) multi-label classification, where each observation has multiple associated labels; (3) classification problems where the labels have a hierarchical structure; (4) image segmentation, where we wish to predict a set of pixels containing an object of interest; and (5) protein structure prediction. Lastly, we discuss extensions to uncertainty quantification for ranking, metric learning and distributionally robust learning.
updated: Wed Aug 04 2021 19:41:27 GMT+0000 (UTC)
published: Thu Jan 07 2021 18:59:33 GMT+0000 (UTC)
