arXiv reaDer
密度ガイド付き適応選択CNNと変圧器推定によるさまざまな密度群集のカウント
Counting Varying Density Crowds Through Density Guided Adaptive Selection CNN and Transformer Estimation
実際の群集カウントアプリケーションでは、画像内の群集密度は大きく異なります。密度の変動に直面すると、人間は低密度の領域でターゲットを見つけて数え、高密度の領域でその数を推論する傾向があります。 CNNは、固定サイズの畳み込みカーネルを使用してローカル情報の相関に焦点を合わせており、Transformerは、グローバルな自己注意メカニズムを使用して、セマンティッククラウド情報を効果的に抽出できることを確認しています。したがって、CNNは低密度領域で群集を正確に特定して推定できますが、高密度領域で密度を適切に認識することは困難です。それどころか、Transformerは高密度領域で高い信頼性を持っていますが、疎領域でターゲットを見つけることができません。 CNNもTransformerも、この種の密度の変動にうまく対処できません。この問題に対処するために、さまざまな密度領域に適切なカウントブランチを適応的に選択できるCNNおよびTransformer Adaptive Selection Network(CTASNet)を提案します。まず、CTASNetはCNNとTransformerの予測結果を生成します。次に、CNN /トランスフォーマーが低/高密度領域に適していることを考慮して、密度ガイド付き適応選択モジュールは、CNNとトランスフォーマーの予測を自動的に組み合わせるように設計されています。さらに、注釈ノイズの影響を減らすために、Correntropyベースの最適なトランスポート損失を導入します。 4つの挑戦的な群集カウントデータセットに関する広範な実験により、提案された方法が検証されました。
In real-world crowd counting applications, the crowd densities in an image vary greatly. When facing with density variation, human tend to locate and count the target in low-density regions, and reason the number in high-density regions. We observe that CNN focus on the local information correlation using a fixed-size convolution kernel and the Transformer could effectively extract the semantic crowd information by using the global self-attention mechanism. Thus, CNN could locate and estimate crowd accurately in low-density regions, while it is hard to properly perceive density in high-density regions. On the contrary, Transformer, has a high reliability in high-density regions, but fails to locate the target in sparse regions. Neither CNN or Transformer can well deal with this kind of density variations. To address this problem, we propose a CNN and Transformer Adaptive Selection Network (CTASNet) which can adaptively select the appropriate counting branch for different density regions. Firstly, CTASNet generates the prediction results of CNN and Transformer. Then, considering that CNN/Transformer are appropriate for low/high-density regions, a density guided Adaptive Selection Module is designed to automatically combine the predictions of CNN and Transformer. Moreover, to reduce the influences of annotation noise, we introduce a Correntropy based Optimal Transport loss. Extensive experiments on four challenging crowd counting datasets have validated the proposed method.
updated: Tue Jun 21 2022 02:05:41 GMT+0000 (UTC)
published: Tue Jun 21 2022 02:05:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト