arXiv reaDer
検出、追跡、およびカウントが群衆の中でドローンと出会う:ベンチマーク
Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark
ドローンでキャプチャされたビデオのオブジェクト検出、追跡、カウントアルゴリズムの開発を促進するために、さまざまなシナリオで33,600のHDフレームを持つ112のビデオクリップで形成された、DroneCrowdという名前の新しいドローンでキャプチャされた大規模データセットを使用してベンチマークを構築します。特に、480万人の頭といくつかのビデオレベルの属性を持つ20,800人の軌跡に注釈を付けます。一方、私たちは時空間近隣認識ネットワーク(STNNet)を強力なベースラインとして設計し、密集した群衆の中で共同でオブジェクトの検出、追跡、カウントを解決します。 STNNetは、特徴抽出モジュール、密度マップ推定ヘッド、ローカリゼーションおよびアソシエーションサブネットによって形成されます。隣接するオブジェクトのコンテキスト情報を活用するために、隣接するコンテキストの損失を設計して、時間ドメイン内の近くのオブジェクトの一貫した相対位置を強制するアソシエーションサブネットトレーニングをガイドします。 DroneCrowdデータセットでの広範な実験は、STNNetが最先端技術に対して有利に機能することを示しています。
To promote the developments of object detection, tracking and counting algorithms in drone-captured videos, we construct a benchmark with a new drone-captured largescale dataset, named as DroneCrowd, formed by 112 video clips with 33,600 HD frames in various scenarios. Notably, we annotate 20,800 people trajectories with 4.8 million heads and several video-level attributes. Meanwhile, we design the Space-Time Neighbor-Aware Network (STNNet) as a strong baseline to solve object detection, tracking and counting jointly in dense crowds. STNNet is formed by the feature extraction module, followed by the density map estimation heads, and localization and association subnets. To exploit the context information of neighboring objects, we design the neighboring context loss to guide the association subnet training, which enforces consistent relative position of nearby objects in temporal domain. Extensive experiments on our DroneCrowd dataset demonstrate that STNNet performs favorably against the state-of-the-arts.
updated: Thu May 06 2021 04:46:14 GMT+0000 (UTC)
published: Thu May 06 2021 04:46:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト