ビデオ監視の隆盛に伴い、特定エリア内の歩行者の位置を正確に特定するために複数の視覚センサーが適用され、インテリジェントな安全性や新しい小売りなどのさまざまなアプリケーションが促進されます。しかし、これまでの方法は、すべてのビデオ フレームとカメラ ビューにおける人間による注釈付きの歩行者の位置からの監視に依存しており、必要なカメラの校正と同期に加えて大きな負担となっていました。したがって、本稿では、多視点歩行者検出器を学習するためのアノテーションの必要性を排除する、教師なし多視点歩行者検出アプローチ (UMPD) を提案します。 1) まず、セマンティックを意識した反復セグメンテーション (SIS) が提案され、教師なし事前学習モデルを介してさまざまなカメラ ビューから入力画像の識別可能な視覚表現を抽出し、提案した反復主成分分析に基づいてそれらを歩行者の 2D セグメントに変換します。そして、ビジョン言語の事前トレーニング済みモデルからのゼロショット セマンティック クラスです。 2) 第二に、SIS、画像、カメラポーズのマスクによって 3D ボクセルの密度と色を学習するだけでなく、ボクセルが地面に対して垂直になるように制約する垂直認識差分レンダリング (VDR) を提案します。歩行者の身体的特徴。 3) 第三に、VDR によって学習された 3D ボクセルの密度が最終的な検出結果として Bird-Eyes-View に投影されます。一般的なマルチビュー歩行者検出ベンチマーク、つまり Wildtrack と MultiviewX に関する広範な実験により、私たちが提案する UMPD アプローチが、私たちの知る限りでは最初の教師なし手法として、以前の最先端の教師あり手法と競合して機能することが示されています。コードが利用可能になります。
With the prosperity of the video surveillance, multiple visual sensors have been applied for an accurate localization of pedestrians in a specific area, which facilitate various applications like intelligent safety or new retailing. However, previous methods rely on the supervision from the human annotated pedestrian positions in every video frame and camera view, which is a heavy burden in addition to the necessary camera calibration and synchronization. Therefore, we propose in this paper an Unsupervised Multi-view Pedestrian Detection approach (UMPD) to eliminate the need of annotations to learn a multi-view pedestrian detector. 1) Firstly, Semantic-aware Iterative Segmentation (SIS) is proposed to extract discriminative visual representations of the input images from different camera views via an unsupervised pretrained model, then convert them into 2D segments of pedestrians, based on our proposed iterative Principal Component Analysis and the zero-shot semantic classes from the vision-language pretrained models. 2) Secondly, we propose Vertical-aware Differential Rendering (VDR) to not only learn the densities and colors of 3D voxels by the masks of SIS, images and camera poses, but also constraint the voxels to be vertical towards the ground plane, following the physical characteristics of pedestrians. 3) Thirdly, the densities of 3D voxels learned by VDR are projected onto Bird-Eyes-View as the final detection results. Extensive experiments on popular multi-view pedestrian detection benchmarks, i.e., Wildtrack and MultiviewX, show that our proposed UMPD approach, as the first unsupervised method to our best knowledge, performs competitively with the previous state-of-the-art supervised techniques. Code will be available.