オブジェクト検出器または検索の学習には、手動注釈付きの大規模なデータセットが必要です。そのようなデータセットは、作成するのに費用と時間がかかるため、大規模に取得するのは困難です。この作業では、ナレーションの自然な相関とビデオ内のオブジェクトの視覚的存在を活用して、手動のラベル付けを行わずにオブジェクト検出器と検索を学習することを提案します。ノイズの多いラベルを使用した弱教師付き学習として問題を提起し、これらの制約の下で新しいオブジェクト検出パラダイムを提案します。対照的なサンプルを使用してバックグラウンド除去を処理し、新しいクラスタリングスコアで高レベルのラベルノイズに対処します。評価は、5000フレームを超える11個の手動注釈付きオブジェクトのセットに基づいています。ベースラインとして弱監視型アプローチとの比較を示し、強くラベル付けされた上限を提供します。
Learning an object detector or retrieval requires a large data set with manual annotations. Such data sets are expensive and time consuming to create and therefore difficult to obtain on a large scale. In this work, we propose to exploit the natural correlation in narrations and the visual presence of objects in video, to learn an object detector and retrieval without any manual labeling involved. We pose the problem as weakly supervised learning with noisy labels, and propose a novel object detection paradigm under these constraints. We handle the background rejection by using contrastive samples and confront the high level of label noise with a new clustering score. Our evaluation is based on a set of 11 manually annotated objects in over 5000 frames. We show comparison to a weakly-supervised approach as baseline and provide a strongly labeled upper bound.