arXiv reaDer
群衆カウントのためのマルチレベルのボトムトップおよびトップボトム機能の融合
Multi-Level Bottom-Top and Top-Bottom Feature Fusion for Crowd Counting
  クラウドカウントは、画像内およびデータセット全体のスケールの大きな変動という形で、大きな課題を提示します。これらの問題は、非常に混雑したシーンでさらに悪化します。深いネットワークからのマルチスケール機能の単純な融合に基づくアプローチは、この問題の明らかな解決策のようです。ただし、これらのフュージョンアプローチでは、混雑したシーンでのクラウドカウントの場合、大幅な改善は得られません。これは通常、クラウドカウントなどの問題に対してマルチスケール機能を効果的に組み合わせる能力が限られているためです。これを克服するために、ネットワークのさまざまな層に存在する情報を効率的に活用する方法に焦点を当てます。具体的には、以下を含むネットワークを提示します:(i)複数レベルでより浅い層からより深い層へ、またはその逆の情報を結合するマルチレベルのボトムトップおよびトップボトム融合(MBTTBF)メソッド、(ii)相補的な特徴抽出のスケールクロスパス残差関数を含むブロック(SCFB)は、融合パスに沿った隣接するコンバー層からの相補的なフィーチャのフローを明示的に有効にします。さらに、マルチスケールフュージョンの有効性を高めるために、トレーニング用にスケール認識グラウンドトゥルース密度マップを生成する原理的な方法を採用しています。混雑の激しいシーンを含む3つのデータセット(ShanghaiTech、UCF_CC_50、およびUCF-QNRF)で行われた実験は、提案された方法がすべてのデータセットでいくつかの最近の方法よりも優れていることを示しています。
Crowd counting presents enormous challenges in the form of large variation in scales within images and across the dataset. These issues are further exacerbated in highly congested scenes. Approaches based on straightforward fusion of multi-scale features from a deep network seem to be obvious solutions to this problem. However, these fusion approaches do not yield significant improvements in the case of crowd counting in congested scenes. This is usually due to their limited abilities in effectively combining the multi-scale features for problems like crowd counting. To overcome this, we focus on how to efficiently leverage information present in different layers of the network. Specifically, we present a network that involves: (i) a multi-level bottom-top and top-bottom fusion (MBTTBF) method to combine information from shallower to deeper layers and vice versa at multiple levels, (ii) scale complementary feature extraction blocks (SCFB) involving cross-scale residual functions to explicitly enable flow of complementary features from adjacent conv layers along the fusion paths. Furthermore, in order to increase the effectiveness of the multi-scale fusion, we employ a principled way of generating scale-aware ground-truth density maps for training. Experiments conducted on three datasets that contain highly congested scenes (ShanghaiTech, UCF_CC_50, and UCF-QNRF) demonstrate that the proposed method is able to outperform several recent methods in all the datasets.
updated: Wed Aug 28 2019 20:45:25 GMT+0000 (UTC)
published: Wed Aug 28 2019 20:45:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト