arXiv reaDer
ビジョントランスフォーマーを使用した単純なオープンボキャブラリーオブジェクト検出
Simple Open-Vocabulary Object Detection with Vision Transformers
単純なアーキテクチャと大規模な事前トレーニングを組み合わせることで、画像分類が大幅に改善されました。オブジェクト検出の場合、特にトレーニングデータが比較的少ないロングテールでオープンボキャブラリーの設定では、事前トレーニングとスケーリングのアプローチはあまり確立されていません。この論文では、画像テキストモデルをオープンボキャブラリーオブジェクト検出に転送するための強力なレシピを提案します。最小限の変更、対照的な画像テキストの事前トレーニング、およびエンドツーエンドの検出の微調整を備えた標準のVisionTransformerアーキテクチャを使用します。このセットアップのスケーリングプロパティの分析は、画像レベルの事前トレーニングとモデルサイズを増やすと、ダウンストリームの検出タスクで一貫した改善が得られることを示しています。ゼロショットのテキスト条件付きおよびワンショットの画像条件付きオブジェクト検出で非常に強力なパフォーマンスを達成するために必要な適応戦略と正則化を提供します。コードとモデルはGitHubで入手できます。
Combining simple architectures with large-scale pre-training has led to massive improvements in image classification. For object detection, pre-training and scaling approaches are less well established, especially in the long-tailed and open-vocabulary setting, where training data is relatively scarce. In this paper, we propose a strong recipe for transferring image-text models to open-vocabulary object detection. We use a standard Vision Transformer architecture with minimal modifications, contrastive image-text pre-training, and end-to-end detection fine-tuning. Our analysis of the scaling properties of this setup shows that increasing image-level pre-training and model size yield consistent improvements on the downstream detection task. We provide the adaptation strategies and regularizations needed to attain very strong performance on zero-shot text-conditioned and one-shot image-conditioned object detection. Code and models are available on GitHub.
updated: Thu May 12 2022 17:20:36 GMT+0000 (UTC)
published: Thu May 12 2022 17:20:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト