この作業では、オープンセット認識(OSR)の困難なタスクに対処することを目指しています。最近の多くのOSRメソッドは、再構成戦略によってクラス固有の特徴を抽出するためにオートエンコーダーに依存しており、ネットワークが入力画像をピクセルレベルで復元する必要があります。クラス固有の機能は通常、すべてのピクセルではなくターゲットオブジェクトに含まれているため、この戦略は一般的にOSRに対して過度に要求されます。この欠点に対処するために、ここではピクセルレベルの再構成戦略を破棄し、クラス固有の特徴抽出の効率を改善することにさらに注意を払います。合理化されたアーキテクチャ、Maximal Mutual Information Open Set Recognition(M2IOSR)を使用した相互情報ベースの方法を提案します。提案されたM2IOSRは、エンコーダーを使用して、特定の入力と複数のスケールにわたる潜在的な特徴との間の相互情報量を最大化することにより、クラス固有の特徴を抽出します。一方、オープンスペースのリスクをさらに低減するために、潜在特徴はKL発散損失関数によって条件付きガウス分布を分類するように制約されます。このようにして、ネットワークがさまざまな観測値を同様の潜在的特徴にマッピングするのを防ぎ、ネットワークが目的の統計的特性を持つクラス固有の特徴を抽出するのに役立つ強力な関数が学習されます。提案された方法は、ベースラインのパフォーマンスを大幅に改善し、いくつかのベンチマークで一貫して新しい最先端の結果を達成します。
In this work, we aim to address the challenging task of open set recognition (OSR). Many recent OSR methods rely on auto-encoders to extract class-specific features by a reconstruction strategy, requiring the network to restore the input image on pixel-level. This strategy is commonly over-demanding for OSR since class-specific features are generally contained in target objects, not in all pixels. To address this shortcoming, here we discard the pixel-level reconstruction strategy and pay more attention to improving the effectiveness of class-specific feature extraction. We propose a mutual information-based method with a streamlined architecture, Maximal Mutual Information Open Set Recognition (M2IOSR). The proposed M2IOSR only uses an encoder to extract class-specific features by maximizing the mutual information between the given input and its latent features across multiple scales. Meanwhile, to further reduce the open space risk, latent features are constrained to class conditional Gaussian distributions by a KL-divergence loss function. In this way, a strong function is learned to prevent the network from mapping different observations to similar latent features and help the network extract class-specific features with desired statistical characteristics. The proposed method significantly improves the performance of baselines and achieves new state-of-the-art results on several benchmarks consistently.