arXiv reaDer
群集における点監視対象物体の検出とカウントのための自己訓練アプローチ
A Self-Training Approach for Point-Supervised Object Detection and Counting in Crowds
この論文では、ポイントレベルの注釈のみでトレーニングされた(つまり、オブジェクトにポイントのラベルが付けられた)典型的なオブジェクト検出器が、混雑したオブジェクトの中心点とサイズの両方を推定できるようにする新しいセルフトレーニングアプローチを提案します。具体的には、トレーニング中に、利用可能なポイントアノテーションを利用して、オブジェクトの中心点の推定を直接監視します。局所的に均一な分布の仮定に基づいて、ポイントレベルの監視情報から疑似オブジェクトサイズを初期化します。これを利用して、混雑を意識した損失を介してオブジェクトサイズの回帰をガイドします。一方、群集内のオブジェクトを同時に検出してカウントする検出器の能力がますます向上するように、初期の疑似オブジェクトサイズを継続的にリファインするための信頼性と順序を意識したリファインメントスキームを提案します。さらに、非常に混雑したシーンに対処するために、検出器の表現能力を向上させる効果的なデコード方法を提案します。 WiderFaceベンチマークの実験結果は、私たちのアプローチが、検出タスクとカウントタスクの両方で最先端のポイント監視方式を大幅に上回っていることを示しています。つまり、このメソッドは平均精度を10%以上向上させ、カウントエラーを31.2削減します。 %。さらに、私たちの方法は、最新の検出によるカウント方法と比較して、群集カウントおよびローカリゼーションデータセット(つまり、ShanghaiTechおよびNWPU-Crowd)および車両カウントデータセット(つまり、CARPKおよびPUCPR +)で最良の結果を取得します。 。
In this paper, we propose a novel self-training approach that enables a typical object detector trained only with point-level annotations (i.e., objects are labeled with points) to estimate both the center points and sizes of crowded objects. Specifically, during training, we utilize the available point annotations to supervise the estimation of the center points of objects directly. Based on a locally-uniform distribution assumption, we initialize pseudo object sizes from the point-level supervisory information, which are then leveraged to guide the regression of object sizes via a crowdedness-aware loss. Meanwhile, we propose a confidence and order-aware refinement scheme to continuously refine the initial pseudo object sizes such that the ability of the detector is increasingly boosted to detect and count objects in crowds simultaneously. Moreover, to address extremely crowded scenes, we propose an effective decoding method to improve the detector's representation ability. Experimental results on the WiderFace benchmark show that our approach significantly outperforms state-of-the-art point-supervised methods under both detection and counting tasks, i.e., our method improves the average precision by more than 10% and reduces the counting error by 31.2%. Besides, our method obtains the best results on the crowd counting and localization datasets (i.e., ShanghaiTech and NWPU-Crowd) and vehicle counting datasets (i.e., CARPK and PUCPR+) compared with state-of-the-art counting-by-detection methods.
updated: Tue Dec 22 2020 13:24:00 GMT+0000 (UTC)
published: Sat Jul 25 2020 02:14:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト