arXiv reaDer
拡張畳み込みSwinTransformerを使用した混雑した群集インスタンスのローカリゼーション
Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer
群集のローカリゼーションは、群集のカウントから進化した新しいコンピュータービジョンタスクです。後者とは異なり、群集シーン全体の数を数えるだけでなく、各インスタンスのより正確な位置情報を提供します。これは、特に非常に混雑した群集シーンで、より大きな課題をもたらします。この論文では、高密度の群集シーンで正確なインスタンスのローカリゼーションを実現する方法に焦点を当て、ターゲットのオクルージョンや画像のぼやけなどにより、従来のモデルの特徴抽出能力が低下する問題を軽減します。最後に、混雑した群衆のシーンに拡張畳み込みスウィントランスフォーマー(DCST)を提案します。具体的には、ウィンドウベースのビジョントランスフォーマーが群集ローカリゼーションタスクに導入され、表現学習の能力が効果的に向上します。次に、適切に設計された拡張畳み込みモジュールをトランスフォーマーのいくつかの異なるステージに挿入して、広範囲のコンテキスト情報を強化します。広範な実験により、提案された方法の有効性が証明され、5つの人気のあるデータセットで最先端のパフォーマンスが達成されます。特に、提案されたモデルは、ローカリゼーションとカウントのパフォーマンスに関して、それぞれ77.5%のF1メジャーと84.2のMAEを達成します。
Crowd localization is a new computer vision task, evolved from crowd counting. Different from the latter, it provides more precise location information for each instance, not just counting numbers for the whole crowd scene, which brings greater challenges, especially in extremely congested crowd scenes. In this paper, we focus on how to achieve precise instance localization in high-density crowd scenes, and to alleviate the problem that the feature extraction ability of the traditional model is reduced due to the target occlusion, the image blur, etc. To this end, we propose a Dilated Convolutional Swin Transformer (DCST) for congested crowd scenes. Specifically, a window-based vision transformer is introduced into the crowd localization task, which effectively improves the capacity of representation learning. Then, the well-designed dilated convolutional module is inserted into some different stages of the transformer to enhance the large-range contextual information. Extensive experiments evidence the effectiveness of the proposed methods and achieve state-of-the-art performance on five popular datasets. Especially, the proposed model achieves F1-measure of 77.5% and MAE of 84.2 in terms of localization and counting performance, respectively.
updated: Mon Aug 02 2021 01:27:53 GMT+0000 (UTC)
published: Mon Aug 02 2021 01:27:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト