この論文では、マルチカメラネットワークでカスタムオブジェクト検出モデルを構築するための自己教師あり学習アプローチであるMCSSLを提案します。 MCSSLは、エピポーラジオメトリと最先端の追跡およびreIDアルゴリズムを活用して、カメラ間の境界ボックスを重複する視野に関連付け、2セットの疑似ラベルを慎重に生成して、オブジェクト検出でバックボーンと検出ネットワークをそれぞれ微調整します。モデル。疑似ラベルを効果的にトレーニングするために、モデルをカスタマイズするために、一貫性が失われた強力なreIDのような口実タスクが構築されます。私たちの評価によると、MCSSLは、従来のセルフトレーニング方法と比較して、WildTrackデータセットとCityFlowデータセットで平均mAPをそれぞれ5.44%と6.76%改善しています。
This paper proposes MCSSL, a self-supervised learning approach for building custom object detection models in multi-camera networks. MCSSL associates bounding boxes between cameras with overlapping fields of view by leveraging epipolar geometry and state-of-the-art tracking and reID algorithms, and prudently generates two sets of pseudo-labels to fine-tune backbone and detection networks respectively in an object detection model. To train effectively on pseudo-labels,a powerful reID-like pretext task with consistency loss is constructed for model customization. Our evaluation shows that compared with legacy selftraining methods, MCSSL improves average mAP by 5.44% and 6.76% on WildTrack and CityFlow dataset, respectively.