OODformer:Out-Of-Distribution DetectionTransformer
画像分類の重大な問題は、トレーニングされたモデルが、モデルトレーニングに使用できるデータと同じ分布に由来する入力データに対しては良好に機能する可能性があるが、分布外(OOD)サンプルに対してははるかに劣ることです。特に、実際のセーフティクリティカルなアプリケーションでは、新しいデータポイントがOODであるかどうかを認識することが重要です。現在まで、OOD検出は通常、信頼スコア、オートエンコーダベースの再構築、または対照学習のいずれかを使用して対処されています。ただし、グローバル画像コンテキストは、配布中のサンプルとOODサンプルの間の非ローカルオブジェクト性を区別するためにまだ調査されていません。このホワイトペーパーでは、トランスフォーマーのコンテキスト化機能を活用する、OODformerという名前の初めてのOOD検出アーキテクチャを提案します。トランスフォーマーを主要な特徴抽出器として組み込むことで、オブジェクトの概念とそれらの識別属性を、視覚的な注意を介した共起とともに活用できます。コンテキスト化された埋め込みを使用して、クラス条件付き潜在空間の類似性とネットワーク信頼スコアの両方を使用したOOD検出を示します。私たちのアプローチは、さまざまなデータセット間で改善された一般化可能性を示しています。 CIFAR-10 / -100とImageNet30で新しい最先端の結果を達成しました。
A serious problem in image classification is that a trained model might perform well for input data that originates from the same distribution as the data available for model training, but performs much worse for out-of-distribution (OOD) samples. In real-world safety-critical applications, in particular, it is important to be aware if a new data point is OOD. To date, OOD detection is typically addressed using either confidence scores, auto-encoder based reconstruction, or by contrastive learning. However, the global image context has not yet been explored to discriminate the non-local objectness between in-distribution and OOD samples. This paper proposes a first-of-its-kind OOD detection architecture named OODformer that leverages the contextualization capabilities of the transformer. Incorporating the trans\-former as the principal feature extractor allows us to exploit the object concepts and their discriminate attributes along with their co-occurrence via visual attention. Using the contextualised embedding, we demonstrate OOD detection using both class-conditioned latent space similarity and a network confidence score. Our approach shows improved generalizability across various datasets. We have achieved a new state-of-the-art result on CIFAR-10/-100 and ImageNet30.
