Boosting Crowd Counting with Transformers
より大きなコンテキストを畳み込みニューラルネットワーク(CNN)に統合することにより、群集カウント問題の大幅な進歩が達成されました。これは、問題のボトムアップの性質にもかかわらず、グローバルシーンのコンテキストが不可欠であることを示しています。これは、コンテキスト知識が特定のシーンに局所的な特徴抽出を適応させ、改善できるという事実によって説明されるかもしれません。したがって、この論文では、群集カウントのためのグローバルコンテキストの役割を調査します。具体的には、純粋なトランスフォーマーを使用して、重複する画像パッチからグローバル情報を含む特徴を抽出します。分類に触発されて、入力シーケンスにコンテキストトークンを追加し、トランスフォーマーレイヤー全体の画像パッチに対応するトークンとの情報交換を容易にします。トランスフォーマーは実証済みのチャネルごとの相互作用を明示的にモデル化していないため、コンテキストトークンによって通知されるチャネルごとの注意を通じてエンコードされた機能を再調整するトークン注意モジュール(TAM)を提案します。さらに、回帰トークンモジュール(RTM)を介して画像の総人数を予測するために採用されています。広範な実験により、私たちの方法が、ShanghaiTech、UCF-QNRF、JHU-CROWD ++、NWPUなどのさまざまなデータセットで最先端のパフォーマンスを達成することが実証されています。大規模なJHU-CROWD ++データセットでは、私たちの方法は、MAEとMSEに関して、以前の最良の結果よりもそれぞれ26.9%と29.9%向上しています。
Significant progress on the crowd counting problem has been achieved by integrating larger context into convolutional neural networks (CNNs). This indicates that global scene context is essential, despite the seemingly bottom-up nature of the problem. This may be explained by the fact that context knowledge can adapt and improve local feature extraction to a given scene. In this paper, we therefore investigate the role of global context for crowd counting. Specifically, a pure transformer is used to extract features with global information from overlapping image patches. Inspired by classification, we add a context token to the input sequence, to facilitate information exchange with tokens corresponding to image patches throughout transformer layers. Due to the fact that transformers do not explicitly model the tried-and-true channel-wise interactions, we propose a token-attention module (TAM) to recalibrate encoded features through channel-wise attention informed by the context token. Beyond that, it is adopted to predict the total person count of the image through regression-token module (RTM). Extensive experiments demonstrate that our method achieves state-of-the-art performance on various datasets, including ShanghaiTech, UCF-QNRF, JHU-CROWD++ and NWPU. On the large-scale JHU-CROWD++ dataset, our method improves over the previous best results by 26.9% and 29.9% in terms of MAE and MSE, respectively.
updated: Sun May 23 2021 12:44:27 GMT+0000 (UTC)
published: Sun May 23 2021 12:44:27 GMT+0000 (UTC)
