このホワイトペーパーでは、画像レベルの注釈のみでデータセットの検出ネットワークをトレーニングする、弱監視オブジェクトローカリゼーション(WSL)の問題に対処します。提案されたアプローチは、トレーニングデータセットから設定された提案が背景、オブジェクトパーツ、およびオブジェクトのコレクションであるという観察に基づいています。ノイズの多い提案を適応的に除去し、弱くラベル付けされたデータセットの擬似オブジェクトレベルの注釈を生成するために、いくつかの戦略が取られています。マスクアウト戦略によって強化された複数インスタンス学習(MIL)アルゴリズムは、クラス固有のオブジェクト提案を収集するために採用され、その後、事前に訓練された分類ネットワークを検出ネットワークに適合させるために利用されます。また、提案サブセット最適化フレームワークで提案の検出スコアと重複率を共同で考慮することにより、検出ネットワークからの検出結果の重み付けが変更されます。最適な提案は、検出ネットワークをトレーニングするための擬似的に強力に監視されたデータセットを有効にするオブジェクトレベルのラベルとして機能します。その結果、完全に適応可能な検出ネットワークを確立します。 PASCAL VOC 2007および2012データセットの広範な評価は、最新の方法と比較して大幅な改善を示しています。
In this paper, we address the problem of weakly supervised object localization (WSL), which trains a detection network on the dataset with only image-level annotations. The proposed approach is built on the observation that the proposal set from the training dataset is a collection of background, object parts, and objects. Several strategies are taken to adaptively eliminate the noisy proposals and generate pseudo object-level annotations for the weakly labeled dataset. A multiple instance learning (MIL) algorithm enhanced by mask-out strategy is adopted to collect the class-specific object proposals, which are then utilized to adapt a pre-trained classification network to a detection network. In addition, the detection results from the detection network are re-weighted by jointly considering the detection scores and the overlap ratio of proposals in a proposal subset optimization framework. The optimal proposals work as object-level labels that enable a pseudo-strongly supervised dataset for training the detection network. Consequently, we establish a fully adaptive detection network. Extensive evaluations on the PASCAL VOC 2007 and 2012 datasets demonstrate a significant improvement compared with the state-of-the-art methods.