arXiv reaDer
ロングテール視覚認識のための検索拡張分類
Retrieval Augmented Classification for Long-Tail Visual Recognition
明示的な検索モジュールを使用して標準の画像分類パイプラインを拡張するための一般的なアプローチである検索拡張分類(RAC)を紹介します。 RACは、事前にエンコードされた画像と関連するテキストスニペットのノンパラメトリック外部メモリを照会する並列検索ブランチと融合した標準のベース画像エンコーダーで構成されています。ロングテール分類の問題にRACを適用し、トレーニングデータセット自体のみを使用しているにもかかわらず、Places365-LTおよびiNaturalist-2018の以前の最先端技術(それぞれ14.5%および6.7%)よりも大幅に改善されていることを示しています。外部情報源。 RACの取得モジュールは、プロンプトを表示せずに、テールクラスで高レベルの精度を学習することを示します。これにより、ベースエンコーダーが解放され、一般的なクラスに集中できるようになり、パフォーマンスが向上します。 RACは、微調整を必要とせずに大規模な事前トレーニング済みモデルを利用するための代替アプローチであり、一般的なコンピュータービジョンアーキテクチャ内で外部メモリをより効果的に利用するための最初のステップです。
We introduce Retrieval Augmented Classification (RAC), a generic approach to augmenting standard image classification pipelines with an explicit retrieval module. RAC consists of a standard base image encoder fused with a parallel retrieval branch that queries a non-parametric external memory of pre-encoded images and associated text snippets. We apply RAC to the problem of long-tail classification and demonstrate a significant improvement over previous state-of-the-art on Places365-LT and iNaturalist-2018 (14.5% and 6.7% respectively), despite using only the training datasets themselves as the external information source. We demonstrate that RAC's retrieval module, without prompting, learns a high level of accuracy on tail classes. This, in turn, frees the base encoder to focus on common classes, and improve its performance thereon. RAC represents an alternative approach to utilizing large, pretrained models without requiring fine-tuning, as well as a first step towards more effectively making use of external memory within common computer vision architectures.
updated: Tue Feb 22 2022 23:40:51 GMT+0000 (UTC)
published: Tue Feb 22 2022 23:40:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト