最新のオブジェクト検出器は大量のトレーニング データに大きく依存していますが、人間はいくつかのトレーニング例を使用して新しいオブジェクトを簡単に検出できます。人間の視覚システムのメカニズムは、さまざまなオブジェクト間の空間的関係を解釈することであり、このプロセスにより、オブジェクトの共起を考慮してコンテキスト情報を活用できます。したがって、コンテキスト内のわずかなトレーニング例で新しいオブジェクトを検出する空間推論フレームワークを提案します。基本カテゴリで十分にトレーニングされたオブジェクト検出器を使用して、新規カテゴリと基本 ROI (関心領域) の間の幾何学的関連性を推測し、新規カテゴリの特徴表現を強化します。 RoIとしてグラフ畳み込みネットワークを採用し、それらの関連性はそれぞれノードとエッジとして定義されます。さらに、画像内のすべてのオブジェクトと境界ボックスのサイズがランダムに変更される少数ショット環境を克服するために、空間データ拡張を提示します。 PASCAL VOC および MS COCO データセットを使用して、提案された方法が最先端の方法よりも大幅に優れていることを実証し、広範なアブレーション研究を通じてその有効性を検証します。
Although modern object detectors rely heavily on a significant amount of training data, humans can easily detect novel objects using a few training examples. The mechanism of the human visual system is to interpret spatial relationships among various objects and this process enables us to exploit contextual information by considering the co-occurrence of objects. Thus, we propose a spatial reasoning framework that detects novel objects with only a few training examples in a context. We infer geometric relatedness between novel and base RoIs (Region-of-Interests) to enhance the feature representation of novel categories using an object detector well trained on base categories. We employ a graph convolutional network as the RoIs and their relatedness are defined as nodes and edges, respectively. Furthermore, we present spatial data augmentation to overcome the few-shot environment where all objects and bounding boxes in an image are resized randomly. Using the PASCAL VOC and MS COCO datasets, we demonstrate that the proposed method significantly outperforms the state-of-the-art methods and verify its efficacy through extensive ablation studies.