機械学習モデルのパフォーマンスは、データの分散シフトによって大幅に低下する可能性があります。データの「高レベル」構造に関する専門知識と標準的な分類器を組み合わせることで、分布シフトに対するロバスト性を向上させることができる新しい分類方法を提案します。具体的には、メモリ分類器と呼ばれる2段階の分類器を紹介します。トレーニングデータをクラスター化するための典型的なデータポイント(メモリ)を特定します。このステップは、専門家の指導を受けて設計された機能に基づいています。たとえば、画像データの場合、デジタル画像処理アルゴリズムを使用して抽出できます。次に、各クラスター内で学習します。ディープニューラルネットワークなどの標準モデルを介して、より細かい識別機能に基づくローカル分類器。メモリ分類器の一般化範囲を確立します。実験で、画像データセットの分布シフトに対する一般化とロバスト性を改善できることを示します。標準データを超える改善を示します。増強技術。
The performance of machine learning models can significantly degrade under distribution shifts of the data. We propose a new method for classification which can improve robustness to distribution shifts, by combining expert knowledge about the ``high-level" structure of the data with standard classifiers. Specifically, we introduce two-stage classifiers called memory classifiers. First, these identify prototypical data points -- memories -- to cluster the training data. This step is based on features designed with expert guidance; for instance, for image data they can be extracted using digital image processing algorithms. Then, within each cluster, we learn local classifiers based on finer discriminating features, via standard models like deep neural networks. We establish generalization bounds for memory classifiers. We illustrate in experiments that they can improve generalization and robustness to distribution shifts on image datasets. We show improvements which push beyond standard data augmentation techniques.