実世界のデータは、多くの場合、ロングテールでオープンエンド (目に見えないクラス) の分布を示します。実用的な認識システムは、マジョリティ (ヘッド) クラスとマイノリティ (テール) クラスの間でバランスを取り、分布全体に一般化し、目に見えないクラス (オープン クラス) のインスタンスの新規性を認識しなければなりません。 Open Long-Tailed Recognition++ (OLTR++) を、そのような自然に分散されたデータから学習し、既知のクラスとオープン クラスの両方を含むバランスの取れたテスト セットで分類精度を最適化することと定義します。 OLTR++ は、不均衡な分類、少数ショット学習、オープン セット認識、およびアクティブ ラーニングを 1 つの統合アルゴリズムで処理しますが、既存の分類アプローチは多くの場合、1 つまたは 2 つの側面にのみ焦点を当てており、スペクトル全体でうまく機能しません。主な課題は、1) ヘッドクラスとテールクラスの間で視覚的な知識を共有する方法、2) テールクラスとオープンクラスの間の混乱を減らす方法、3) 学習した知識でオープンクラスを積極的に探索する方法です。私たちのアルゴリズムである OLTR++ は、画像を特徴空間にマッピングし、記憶の関連付けメカニズムと学習したメトリック (動的メタ埋め込み) を介して視覚的な概念を相互に関連付けることができるようにします。オープンクラス。さらに、将来の拡張のためにデータ効率の良い方法でオープン クラスを認識することを学習する、視覚記憶に基づくアクティブ ラーニング スキームを提案します。 ImageNet (オブジェクト中心)、Places (シーン中心)、MS1M (顔中心) のデータ、および 3 つの標準ベンチマーク (CIFAR-10-LT、CIFAR) からキュレートした 3 つの大規模なオープン ロングテール データセット-100-LT、および iNaturalist-18)、統合されたフレームワークとしての私たちのアプローチは、一貫して競争力のあるパフォーマンスを示しています。特に、私たちのアプローチは、オープンクラスの積極的な調査とマイノリティグループの公平性分析の強力な可能性も示しています。
Real world data often exhibits a long-tailed and open-ended (with unseen classes) distribution. A practical recognition system must balance between majority (head) and minority (tail) classes, generalize across the distribution, and acknowledge novelty upon the instances of unseen classes (open classes). We define Open Long-Tailed Recognition++ (OLTR++) as learning from such naturally distributed data and optimizing for the classification accuracy over a balanced test set which includes both known and open classes. OLTR++ handles imbalanced classification, few-shot learning, open-set recognition, and active learning in one integrated algorithm, whereas existing classification approaches often focus only on one or two aspects and deliver poorly over the entire spectrum. The key challenges are: 1) how to share visual knowledge between head and tail classes, 2) how to reduce confusion between tail and open classes, and 3) how to actively explore open classes with learned knowledge. Our algorithm, OLTR++, maps images to a feature space such that visual concepts can relate to each other through a memory association mechanism and a learned metric (dynamic meta-embedding) that both respects the closed world classification of seen classes and acknowledges the novelty of open classes. Additionally, we propose an active learning scheme based on visual memory, which learns to recognize open classes in a data-efficient manner for future expansions. On three large-scale open long-tailed datasets we curated from ImageNet (object-centric), Places (scene-centric), and MS1M (face-centric) data, as well as three standard benchmarks (CIFAR-10-LT, CIFAR-100-LT, and iNaturalist-18), our approach, as a unified framework, consistently demonstrates competitive performance. Notably, our approach also shows strong potential for the active exploration of open classes and the fairness analysis of minority groups.