本稿では、ディープニューラルネットワークと従来の検出スキーマを統合して、正確な汎用オブジェクト検出を行うことにより、「Deep Regionlets」という名前の新しいオブジェクト検出アルゴリズムを提案します。オブジェクトの変形と複数のアスペクト比をモデリングするためのリージョンレットの有効性に動機付けて、リージョンレットをエンドツーエンドのトレーニング可能なディープラーニングフレームワークに組み込みます。ディープリージョンレットフレームワークは、リージョン選択ネットワークとディープリージョンレット学習モジュールで構成されています。具体的には、検出境界ボックスの提案が与えられると、領域選択ネットワークは、特徴を学習できるサブ領域を選択する場所に関するガイダンスを提供します。通常、オブジェクト提案には3〜16のサブ領域が含まれます。 regionlet学習モジュールは、局所的な特徴選択と変換に焦点を当てて、外観のバリエーションの影響を軽減します。この目的のために、オブジェクトの外観の変化に対応するために、まず検出フレームワーク内で非矩形領域の選択を実現します。さらに、リージョン依存学習モジュール内に「ゲーティングネットワーク」を設計して、インスタンスに依存するソフト機能の選択とプーリングを可能にします。 Deep Regionletsフレームワークは、追加の努力なしでエンドツーエンドでトレーニングされます。 PASCAL VOCデータセットとMicrosoft COCOデータセットに関するアブレーション研究と広範な実験を紹介します。提案された方法は、追加のセグメンテーションラベルがなくても、RetinaNetやMask R-CNNなどの最先端のアルゴリズムよりも競争力のあるパフォーマンスをもたらします。
In this paper, we propose a novel object detection algorithm named "Deep Regionlets" by integrating deep neural networks and a conventional detection schema for accurate generic object detection. Motivated by the effectiveness of regionlets for modeling object deformations and multiple aspect ratios, we incorporate regionlets into an end-to-end trainable deep learning framework. The deep regionlets framework consists of a region selection network and a deep regionlet learning module. Specifically, given a detection bounding box proposal, the region selection network provides guidance on where to select sub-regions from which features can be learned from. An object proposal typically contains 3-16 sub-regions. The regionlet learning module focuses on local feature selection and transformations to alleviate the effects of appearance variations. To this end, we first realize non-rectangular region selection within the detection framework to accommodate variations in object appearance. Moreover, we design a "gating network" within the regionlet leaning module to enable instance dependent soft feature selection and pooling. The Deep Regionlets framework is trained end-to-end without additional efforts. We present ablation studies and extensive experiments on the PASCAL VOC dataset and the Microsoft COCO dataset. The proposed method yields competitive performance over state-of-the-art algorithms, such as RetinaNet and Mask R-CNN, even without additional segmentation labels.