arXiv reaDer
ランク模倣および予測誘導特徴模倣による物体検出のための知識抽出
Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation
知識蒸留(KD)は、面倒な教師モデルからコンパクトな生徒モデルに情報を継承するために広く使用されているテクノロジーであり、その結果、モデルの圧縮と高速化を実現します。画像分類と比較して、オブジェクト検出はより複雑なタスクであり、オブジェクト検出のための特定のKDメソッドを設計することは簡単ではありません。この作業では、教師と生徒の検出モデルの動作の違いを詳細に調査し、2つの興味深い観察結果を取得します。1つは、教師と生徒が検出された候補ボックスをまったく異なる方法でランク付けするため、精度に差異が生じることです。第二に、教師と生徒の間の特徴応答の違いと予測の違いの間にはかなりのギャップがあり、教師のすべての特徴マップを等しく模倣することは、生徒の精度を向上させるための最適ではない選択であることを示しています。 2つの観察結果に基づいて、1ステージ検出器を蒸留するためのランク模倣(RM)と予測ガイド機能模倣(PFI)をそれぞれ提案します。 RMは、蒸留するための新しい形式の知識として、教師からの候補ボックスのランクを取得します。これは、従来のソフトラベル蒸留よりも一貫して優れています。 PFIは、特徴の違いを予測の違いと相関させようとし、特徴の模倣を生徒の精度の向上に直接役立てます。 MSCOCOおよびPASCALVOCベンチマークでは、さまざまなバックボーンを備えたさまざまな検出器で広範な実験が行われ、メソッドの有効性が検証されます。具体的には、ResNet50を使用したRetinaNetは、MS COCOで40.4%のmAPを達成します。これは、ベースラインより3.5%高く、以前のKDメソッドよりも優れています。
Knowledge Distillation (KD) is a widely-used technology to inherit information from cumbersome teacher models to compact student models, consequently realizing model compression and acceleration. Compared with image classification, object detection is a more complex task, and designing specific KD methods for object detection is non-trivial. In this work, we elaborately study the behaviour difference between the teacher and student detection models, and obtain two intriguing observations: First, the teacher and student rank their detected candidate boxes quite differently, which results in their precision discrepancy. Second, there is a considerable gap between the feature response differences and prediction differences between teacher and student, indicating that equally imitating all the feature maps of the teacher is the sub-optimal choice for improving the student's accuracy. Based on the two observations, we propose Rank Mimicking (RM) and Prediction-guided Feature Imitation (PFI) for distilling one-stage detectors, respectively. RM takes the rank of candidate boxes from teachers as a new form of knowledge to distill, which consistently outperforms the traditional soft label distillation. PFI attempts to correlate feature differences with prediction differences, making feature imitation directly help to improve the student's accuracy. On MS COCO and PASCAL VOC benchmarks, extensive experiments are conducted on various detectors with different backbones to validate the effectiveness of our method. Specifically, RetinaNet with ResNet50 achieves 40.4% mAP in MS COCO, which is 3.5% higher than its baseline, and also outperforms previous KD methods.
updated: Thu Dec 09 2021 11:19:15 GMT+0000 (UTC)
published: Thu Dec 09 2021 11:19:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト