arXiv reaDer
視覚オブジェクト検出のための事前トレーニング済みトランスフォーマー エンコーダー/デコーダーの統合移行
Integrally Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection
最新のオブジェクト検出器は、大規模なデータセットで事前にトレーニングされたバックボーン ネットワークを利用しています。ただし、バックボーン ネットワークを除いて、検出器ヘッドや機能ピラミッド ネットワーク (FPN) などの他のコンポーネントはゼロからトレーニングされたままなので、表現モデルの可能性を十分に引き出すことができません。この研究では、検出器の一般化能力が最大化されるように、「完全に事前に訓練された」特徴抽出パスを構築して、事前トレーニング済みの変換エンコーダー/デコーダー (imTED) を検出器に統合的に移行することを提案します。 (1) 特徴抽出パスからランダムに初期化された FPN を削除しながら、事前トレーニング済みの変換器デコーダーを検出器ヘッドに移行すること、および (2) マルチスケール特徴変調器 (MFM) を定義して強化することです。スケール適応性. このような設計は、ランダムに初期化されたパラメーターを大幅に削減するだけでなく、検出器のトレーニングを意図的に表現学習と統合することもできます. MS COCOオブジェクト検出データセットの実験では、imTEDが一貫して対応するものよりも約2.4 AP優れていることが示されています. ベルとホイッスルがなければ、imTEDは最大 7.6 AP による最先端の少数ショット物体検出コードは、https://github.com/LiewFeng/imTED で入手できます。
Modern object detectors have taken the advantages of backbone networks pre-trained on large scale datasets. Except for the backbone networks, however, other components such as the detector head and the feature pyramid network (FPN) remain trained from scratch, which hinders fully tapping the potential of representation models. In this study, we propose to integrally migrate pre-trained transformer encoder-decoders (imTED) to a detector, constructing a feature extraction path which is ``fully pre-trained" so that detectors' generalization capacity is maximized. The essential differences between imTED with the baseline detector are twofold: (1) migrating the pre-trained transformer decoder to the detector head while removing the randomly initialized FPN from the feature extraction path; and (2) defining a multi-scale feature modulator (MFM) to enhance scale adaptability. Such designs not only reduce randomly initialized parameters significantly but also unify detector training with representation learning intendedly. Experiments on the MS COCO object detection dataset show that imTED consistently outperforms its counterparts by ∼2.4 AP. Without bells and whistles, imTED improves the state-of-the-art of few-shot object detection by up to 7.6 AP. Code is available at https://github.com/LiewFeng/imTED.
updated: Fri Dec 02 2022 14:57:45 GMT+0000 (UTC)
published: Thu May 19 2022 15:11:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト