機械学習の研究では、カメラ画像が広く使われています。また、医療や環境調査にまたがる重要なサービスの提供においても中心的な役割を果たしています。ただし、これらのドメインでの機械学習モデルの適用は、堅牢性の懸念から制限されています。主な障害モードは、トレーニング データと展開データの違いによるパフォーマンスの低下です。このようなデータセットのドリフトに対する機械学習モデルの堅牢性を前向きに検証する方法はありますが、既存のアプローチでは、主な関心対象であるデータの明示的なモデルを考慮していません。これにより、データ生成とダウンストリームの機械学習モデルのパフォーマンスとの関係を物理的に正確な方法で調査および理解する能力が制限されます。この研究では、従来の機械学習と物理光学を組み合わせて明示的で微分可能なデータ モデルを取得することにより、この制限を克服する方法を示します。このようなデータモデルを画像データ用に構築し、データセットのドリフトに関連するダウンストリーム機械学習モデルのパフォーマンスを制御するために使用する方法を示します。調査結果は 3 つのアプリケーションに要約されます。まず、ドリフト合成により、物理的に忠実なドリフト テスト ケースの制御された生成が可能になり、モデルの選択と的を絞った一般化が強化されます。第 2 に、機械学習タスク モデルとデータ モデルの間の勾配接続により、データ生成の変化に対するタスク モデルの感度の高度で正確な許容範囲が可能になります。これらのドリフト フォレンジックを使用して、タスク モデルを実行できる許容可能なデータ環境を正確に指定できます。第 3 に、ドリフトの最適化により、タスク モデルがより速く学習し、データ生成プロセス自体を効果的に最適化するのに役立つドリフトを作成する可能性が開かれます。オープン コードとデータセットにアクセスするためのガイドは、https://github.com/aiaudit-org/raw2logit で入手できます。
Camera images are ubiquitous in machine learning research. They also play a central role in the delivery of important services spanning medicine and environmental surveying. However, the application of machine learning models in these domains has been limited because of robustness concerns. A primary failure mode are performance drops due to differences between the training and deployment data. While there are methods to prospectively validate the robustness of machine learning models to such dataset drifts, existing approaches do not account for explicit models of the primary object of interest: the data. This limits our ability to study and understand the relationship between data generation and downstream machine learning model performance in a physically accurate manner. In this study, we demonstrate how to overcome this limitation by pairing traditional machine learning with physical optics to obtain explicit and differentiable data models. We demonstrate how such data models can be constructed for image data and used to control downstream machine learning model performance related to dataset drift. The findings are distilled into three applications. First, drift synthesis enables the controlled generation of physically faithful drift test cases to power model selection and targeted generalization. Second, the gradient connection between machine learning task model and data model allows advanced, precise tolerancing of task model sensitivity to changes in the data generation. These drift forensics can be used to precisely specify the acceptable data environments in which a task model may be run. Third, drift optimization opens up the possibility to create drifts that can help the task model learn better faster, effectively optimizing the data generating process itself. A guide to access the open code and datasets is available at https://github.com/aiaudit-org/raw2logit.