RILOD: Near Real-Time Incremental Learning for Object Detection at the Edge
  カメラを搭載したエッジデバイスに同梱されているオブジェクト検出モデルでは、すべてのユーザーが関心のあるオブジェクトをカバーすることはできません。したがって、インクリメンタル学習機能は、多くのアプリケーションが依存する堅牢でパーソナライズされたオブジェクト検出システムにとって重要な機能です。この論文では、既存のオブジェクト検出モデルをインクリメンタルにトレーニングして、古いクラスを検出する能力を失うことなく新しいオブジェクトクラスを検出できる、効率的で実用的なシステムRILODを紹介します。 RILODの主要なコンポーネントは、新しいオブジェクトクラスのトレーニングデータのみを使用して、1段階の深層オブジェクト検出モデルのエンドツーエンドをトレーニングする新しいインクリメンタル学習アルゴリズムです。特に壊滅的な忘却を避けるために、アルゴリズムは古いモデルから3種類の知識を抽出して、オブジェクト分類、境界ボックス回帰、および特徴抽出に関する古いモデルの動作を模倣します。さらに、新しいクラスのトレーニングデータが利用できない可能性があるため、リアルタイムデータセット構築パイプラインは、トレーニング画像をオンザフライで収集し、カテゴリと境界ボックスの両方の注釈で画像に自動的にラベルを付けるように設計されています。 RILODは、エッジクラウドとエッジのみの両方のセットアップで実装されています。実験結果は、提案されたシステムが、データセット構築とモデルトレーニングの両方を含め、わずか数分で新しいオブジェクトクラスを検出することを学習できることを示しています。それに比べて、従来の微調整ベースの方法では、トレーニングに数時間かかる場合があり、ほとんどの場合、面倒で費用のかかる手動のデータセットラベリング手順も必要になります。
Object detection models shipped with camera-equipped edge devices cannot cover the objects of interest for every user. Therefore, the incremental learning capability is a critical feature for a robust and personalized object detection system that many applications would rely on. In this paper, we present an efficient yet practical system, RILOD, to incrementally train an existing object detection model such that it can detect new object classes without losing its capability to detect old classes. The key component of RILOD is a novel incremental learning algorithm that trains end-to-end for one-stage deep object detection models only using training data of new object classes. Specifically to avoid catastrophic forgetting, the algorithm distills three types of knowledge from the old model to mimic the old model's behavior on object classification, bounding box regression and feature extraction. In addition, since the training data for the new classes may not be available, a real-time dataset construction pipeline is designed to collect training images on-the-fly and automatically label the images with both category and bounding box annotations. We have implemented RILOD under both edge-cloud and edge-only setups. Experiment results show that the proposed system can learn to detect a new object class in just a few minutes, including both dataset construction and model training. In comparison, traditional fine-tuning based method may take a few hours for training, and in most cases would also need a tedious and costly manual dataset labeling step.
updated: Mon Sep 23 2019 17:37:55 GMT+0000 (UTC)
published: Tue Mar 26 2019 17:22:01 GMT+0000 (UTC)
