ディープコンボリューションニューラルネットワークに依存する歩行者検出は、大きな進歩を遂げています。標準の歩行者では有望な結果が得られていますが、重度に閉塞した歩行者のパフォーマンスは満足できるものではありません。主な原因は、他の歩行者が関与するクラス内オクルージョンと、車や自転車などの他のオブジェクトによって引き起こされるクラス間オクルージョンです。これらは、多数の閉塞パターンをもたらします。閉塞歩行者検出のアプローチを以下の貢献とともに提案します。まず、人気のある歩行者検出パイプラインに自然に適合する新しいマスクガイド型注意ネットワークを紹介します。私たちの注意ネットワークは、目に見える歩行者の領域を強調する一方で、全身の特徴を変調することにより、閉塞された領域を抑制します。第二に、粗いレベルのセグメンテーションアノテーションが、ピクセル単位の密な対応物に合理的な近似を提供することを経験的に実証します。実験は、CityPersonsおよびCaltechのデータセットで実行されます。私たちのアプローチは、両方のデータセットに新しい最先端を設定します。 CityPersonsテストセットの重度に遮蔽された(HO)歩行者セットで報告された最高の結果と比較して、このアプローチでは対数平均ミス率で9.5%の絶対ゲインが得られます。さらに、カリフォルニア工科大学のデータセットのHO歩行者セットでは、報告されている最良の結果と比較して、この方法は対数平均ミス率で5.0%の絶対ゲインを達成しています。コードとモデルは、https://github.com/Leotju/MGANで入手できます。
Pedestrian detection relying on deep convolution neural networks has made significant progress. Though promising results have been achieved on standard pedestrians, the performance on heavily occluded pedestrians remains far from satisfactory. The main culprits are intra-class occlusions involving other pedestrians and inter-class occlusions caused by other objects, such as cars and bicycles. These result in a multitude of occlusion patterns. We propose an approach for occluded pedestrian detection with the following contributions. First, we introduce a novel mask-guided attention network that fits naturally into popular pedestrian detection pipelines. Our attention network emphasizes on visible pedestrian regions while suppressing the occluded ones by modulating full body features. Second, we empirically demonstrate that coarse-level segmentation annotations provide reasonable approximation to their dense pixel-wise counterparts. Experiments are performed on CityPersons and Caltech datasets. Our approach sets a new state-of-the-art on both datasets. Our approach obtains an absolute gain of 9.5% in log-average miss rate, compared to the best reported results on the heavily occluded (HO) pedestrian set of CityPersons test set. Further, on the HO pedestrian set of Caltech dataset, our method achieves an absolute gain of 5.0% in log-average miss rate, compared to the best reported results. Code and models are available at: https://github.com/Leotju/MGAN.