arXiv reaDer
ゼロショット検出のための効率的な特徴抽出
Efficient Feature Distillation for Zero-shot Detection
大規模な視覚言語モデル (CLIP など) は、見えないオブジェクトを検出するためにさまざまな方法で活用されます。ただし、これらの作業のほとんどは、トレーニング用にキャプションや画像を追加する必要があり、これはゼロ ショット検出のコンテキストでは実行できません。対照的に、蒸留ベースの方法は余分なデータのない方法ですが、限界があります。具体的には、既存の作業は、基本カテゴリに偏った蒸留領域を作成します。これにより、新しいカテゴリ情報の蒸留が制限され、蒸留効率が損なわれます。さらに、抽出のために CLIP から生の特徴を直接使用すると、CLIP のトレーニング データと検出データセットの間のドメイン ギャップが無視され、画像領域から視覚言語特徴空間へのマッピングを学習することが困難になります。見えない物体の検出。その結果、既存の蒸留ベースの方法では、非常に長いトレーニング スケジュールが必要になります。これらの問題を解決するために、Zero-Shot Detection (EZSD) の効率的な特徴抽出を提案します。まず、EZSD は、CLIP を再正規化してドメインギャップを埋めることにより、CLIP の特徴空間をターゲット検出ドメインに適合させます。第 2 に、EZSD は CLIP を使用して潜在的な新規インスタンスを含む蒸留提案を生成し、蒸留が基本カテゴリに偏りすぎないようにします。最後に、EZSD は回帰のセマンティックな意味を利用して、モデルのパフォーマンスをさらに向上させます。その結果、EZSD は、はるかに短いトレーニング スケジュールで COCO ゼロ ショット ベンチマークで最先端のパフォーマンスを達成し、1/10 のトレーニング時間で LVIS 全体設定で以前の作業を 4% 上回っています。
The large-scale vision-language models (e.g., CLIP) are leveraged by different methods to detect unseen objects. However, most of these works require additional captions or images for training, which is not feasible in the context of zero-shot detection. In contrast, the distillation-based method is an extra-data-free method, but it has its limitations. Specifically, existing work creates distillation regions that are biased to the base categories, which limits the distillation of novel category information and harms the distillation efficiency. Furthermore, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space - an essential component for detecting unseen objects. As a result, existing distillation-based methods require an excessively long training schedule. To solve these problems, we propose Efficient feature distillation for Zero-Shot Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP to bridge the domain gap; Secondly, EZSD uses CLIP to generate distillation proposals with potential novel instances, to avoid the distillation being overly biased to the base categories. Finally, EZSD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZSD achieves state-of-the-art performance in the COCO zero-shot benchmark with a much shorter training schedule and outperforms previous work by 4% in LVIS overall setting with 1/10 training time.
updated: Thu Mar 23 2023 04:54:28 GMT+0000 (UTC)
published: Tue Mar 21 2023 19:02:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト