汎用オブジェクト検出は、コンピュータービジョンの最も基本的な問題の1つですが、数千のカテゴリの大規模なオブジェクト検出を目的とするすべての境界ボックスレベルのアノテーションを提供することは困難です。このホワイトペーパーでは、CS-R-FCNと呼ばれる、大規模なオブジェクト検出のための新しいクロス監視学習パイプラインを紹介します。まず、完全に監視された2段階のオブジェクト検出フレームワークで画像レベルの注釈付き画像のデータフローを利用し、境界ボックスレベルの注釈付きデータと画像レベルの注釈付きデータを組み合わせたクロス教師あり学習を提案します。第二に、クロス学習されたカテゴリ間の関係を利用して、特徴学習中の不合理な相互抑制効果を減らす意味集約戦略を導入します。実験結果は、提案されたCS-R-FCNが以前の関連研究と比較してmAPを大幅に改善することを示しています。
Generic object detection is one of the most fundamental problems in computer vision, yet it is difficult to provide all the bounding-box-level annotations aiming at large-scale object detection for thousands of categories. In this paper, we present a novel cross-supervised learning pipeline for large-scale object detection, denoted as CS-R-FCN. First, we propose to utilize the data flow of image-level annotated images in the fully-supervised two-stage object detection framework, leading to cross-supervised learning combining bounding-box-level annotated data and image-level annotated data. Second, we introduce a semantic aggregation strategy utilizing the relationships among the cross-supervised categories to reduce the unreasonable mutual inhibition effects during the feature learning. Experimental results show that the proposed CS-R-FCN improves the mAP by a large margin compared to previous related works.