インクリメンタルな数ショット学習は、実用的なロボット工学アプリケーションに大いに期待されています。一方では、ロボットは、注釈付きのトレーニングサンプルをいくつか使用するだけで、新しいタスクを迅速かつ柔軟に学習することが望まれます。一方、そのような新しい追加のタスクは、以前に学習した知識を劇的に忘れることなく、継続的かつ段階的に学習する必要があります。この作業では、以前のトレーニングデータに再度アクセスすることなく、ディープオブジェクト検出ネットワークが数ショットのサンプルから効果的な継続学習を実行できるようにする、新しいクラスインクリメンタル少数ショットオブジェクト検出(CI-FSOD)フレームワークを提案します。これは、広く使用されているFaster-RCNN検出器に3つのエレガントなコンポーネントを装備することで実現しています。まず、事前にトレーニングされた基本クラスのパフォーマンスを最大限に維持するために、基本カテゴリと新規カテゴリの表現学習を異なる空間に分離する、新規のデュアル埋め込みスペース(DES)アーキテクチャを提案します。第二に、蓄積された新規クラスの壊滅的な忘却を軽減するために、追加のストレージコストなしで長期記憶を実現できるSequential Model Fusion(SMF)メソッドを提案します。第三に、特徴空間におけるタスク間のクラス分離を促進するために、誤分類を回避するために分類境界を以前のクラスからさらに遠ざける新しい正則化手法を提案します。全体として、私たちのフレームワークはシンプルでありながら効果的であり、APパフォーマンスで2.4ポイントの大幅なマージンで以前のSOTAを上回っています。
Incremental few-shot learning is highly expected for practical robotics applications. On one hand, robot is desired to learn new tasks quickly and flexibly using only few annotated training samples; on the other hand, such new additional tasks should be learned in a continuous and incremental manner without forgetting the previous learned knowledge dramatically. In this work, we propose a novel Class-Incremental Few-Shot Object Detection (CI-FSOD) framework that enables deep object detection network to perform effective continual learning from just few-shot samples without re-accessing the previous training data. We achieve this by equipping the widely-used Faster-RCNN detector with three elegant components. Firstly, to best preserve performance on the pre-trained base classes, we propose a novel Dual-Embedding-Space (DES) architecture which decouples the representation learning of base and novel categories into different spaces. Secondly, to mitigate the catastrophic forgetting on the accumulated novel classes, we propose a Sequential Model Fusion (SMF) method, which is able to achieve long-term memory without additional storage cost. Thirdly, to promote inter-task class separation in feature space, we propose a novel regularization technique that extends the classification boundary further away from the previous classes to avoid misclassification. Overall, our framework is simple yet effective and outperforms the previous SOTA with a significant margin of 2.4 points in AP performance.