歩行者カウントは、歩行者のパターンと群集の流れの分析を理解するための基本的なツールです。既存の作業(たとえば、画像レベルの歩行者カウント、クロスライン群集カウントなど)は、画像レベルのカウントのみに焦点を当てているか、線の手動注釈に制限されています。この作業では、新しい視点から歩行者カウントを実行することを提案します。ビデオ個別カウント(VIC)は、特定のビデオ内の個々の歩行者の総数をカウントします(人は1回だけカウントされます)。マルチオブジェクトトラッキング(MOT)手法に依存する代わりに、すべての歩行者を最初のフレームに存在した最初の歩行者と、後続の各フレームに別々のIDを持つ新しい歩行者に分解することで問題を解決することを提案します。次に、エンドツーエンドの分解および推論ネットワーク(DRNet)を設計して、密度推定法を使用して初期の歩行者数を予測し、微分可能な最適な輸送で各フレームの新しい歩行者数を推論します。混雑した歩行者と多様なシーンを含む2つのデータセットで広範な実験が行われ、個々の歩行者を数える上で非常に優れたベースラインに対する本手法の有効性が実証されています。コード:https://github.com/taohan10200/DRNet。
Pedestrian counting is a fundamental tool for understanding pedestrian patterns and crowd flow analysis. Existing works (e.g., image-level pedestrian counting, crossline crowd counting et al.) either only focus on the image-level counting or are constrained to the manual annotation of lines. In this work, we propose to conduct the pedestrian counting from a new perspective - Video Individual Counting (VIC), which counts the total number of individual pedestrians in the given video (a person is only counted once). Instead of relying on the Multiple Object Tracking (MOT) techniques, we propose to solve the problem by decomposing all pedestrians into the initial pedestrians who existed in the first frame and the new pedestrians with separate identities in each following frame. Then, an end-to-end Decomposition and Reasoning Network (DRNet) is designed to predict the initial pedestrian count with the density estimation method and reason the new pedestrian's count of each frame with the differentiable optimal transport. Extensive experiments are conducted on two datasets with congested pedestrians and diverse scenes, demonstrating the effectiveness of our method over baselines with great superiority in counting the individual pedestrians. Code: https://github.com/taohan10200/DRNet.