オブジェクトレベルの注釈から人間の関与を軽減する上で重要な役割を果たしている弱監視オブジェクト検出(WSOD)について研究します。主な作品は、領域提案メカニズムを畳み込みニューラルネットワーク(CNN)と統合します。 CNNは識別可能なローカルフィーチャの抽出に精通していますが、完全なオブジェクト(つまり、「オブジェクト性」)を含むバウンディングボックスの尤度を測定するための大きな課題が依然として存在します。本論文では、弱教師付きオブジェクト検出のための調整されたトレーニングメカニズムを設計することにより、Objectness Distillation(WSOD ^ 2)を備えた新しいWSODフレームワークを提案します。多重回帰ターゲットは、低レベル測定からのボトムアップ(BU)およびトップダウン(TD)の客観性と、適応線形結合によるCNNの信頼性を共同で検討することにより具体的に決定されます。境界ボックス回帰は、トレーニング中に高い客観性で回帰ターゲットにアプローチする領域提案学習を促進できるため、ボトムアップエビデンスから学習された深い客観性表現は、最適化によってCNNに徐々に抽出されます。 BU / TDの客観性に対するさまざまな適応訓練曲線を調査し、提案されたWSOD ^ 2が最先端の結果を達成できることを示します。
We study on weakly-supervised object detection (WSOD) which plays a vital role in relieving human involvement from object-level annotations. Predominant works integrate region proposal mechanisms with convolutional neural networks (CNN). Although CNN is proficient in extracting discriminative local features, grand challenges still exist to measure the likelihood of a bounding box containing a complete object (i.e., "objectness"). In this paper, we propose a novel WSOD framework with Objectness Distillation (i.e., WSOD^2) by designing a tailored training mechanism for weakly-supervised object detection. Multiple regression targets are specifically determined by jointly considering bottom-up (BU) and top-down (TD) objectness from low-level measurement and CNN confidences with an adaptive linear combination. As bounding box regression can facilitate a region proposal learning to approach its regression target with high objectness during training, deep objectness representation learned from bottom-up evidences can be gradually distilled into CNN by optimization. We explore different adaptive training curves for BU/TD objectness, and show that the proposed WSOD^2 can achieve state-of-the-art results.