精度と速度の両方が要求される実世界のアプリケーション向けに歩行者検出システムを構築することは、依然として非常に困難です。この研究は、軽量な歩行者検出器を学習するための新しい階層的知識蒸留フレームワークを提示します。これにより、計算コストが大幅に削減されると同時に、高い精度が維持されます。より強く、より深いニューラルネットワークがより良い表現を学習するために軽量ネットワークを教えることができる「教師-学生」図に従って、複数の知識蒸留アーキテクチャを調査し、このアプローチを統一された階層的な蒸留フレームワークとして再構築します。特に、提案された蒸留は、複数の階層、最新の検出器の複数のステージで実行され、学生検出器が低レベルの詳細と高レベルの抽象化の両方を同時に学習できるようにします。実験結果は、フレームワークによって訓練されたパラメータの数が6倍に圧縮された学生モデルが、広く使用されている歩行者検出ベンチマークの教師モデルとして競争力のあるパフォーマンスを達成していることを示しています。
It remains very challenging to build a pedestrian detection system for real world applications, which demand for both accuracy and speed. This work presents a novel hierarchical knowledge distillation framework to learn a lightweight pedestrian detector, which significantly reduces the computational cost and still holds the high accuracy at the same time. Following the `teacher--student' diagram that a stronger, deeper neural network can teach a lightweight network to learn better representations, we explore multiple knowledge distillation architectures and reframe this approach as a unified, hierarchical distillation framework. In particular, the proposed distillation is performed at multiple hierarchies, multiple stages in a modern detector, which empowers the student detector to learn both low-level details and high-level abstractions simultaneously. Experiment result shows that a student model trained by our framework, with 6 times compression in number of parameters, still achieves competitive performance as the teacher model on the widely used pedestrian detection benchmark.