最近、歩行者検出は大幅に進歩しましたが、人が密集したシーンや遮蔽物で高いパフォーマンスを達成することは依然として困難です。これは主に、広く使用されている歩行者の表現、つまりオブジェクトのおおよその位置とサイズを表す 2D の軸に沿った境界ボックスに起因する可能性があります。バウンディング ボックスはオブジェクトを境界内の均一な分布としてモデル化するため、ノイズが多いため、遮られたシーンや混雑したシーンでは歩行者を区別できなくなります。この問題を解決するために、ベータ表現と呼ばれる 2D ベータ分布に基づく新しい表現を提案します。全身と目に見えるボックスの間の関係を明示的に構築することで歩行者を描写し、異なる確率値をピクセルに割り当てることで視覚的な質量の中心を強調します。その結果、BetaNMS という名前の新しい NMS 戦略を使用して、混雑したシーンで非常に重複したインスタンスを区別する場合、Beta Representation がはるかに優れています。さらに、Beta Representation を最大限に活用するために、BetaHead と BetaMask を備えた新しいパイプライン Beta R-CNN が提案され、遮られたシーンや混雑したシーンで高い検出パフォーマンスが得られます。
Recently significant progress has been made in pedestrian detection, but it remains challenging to achieve high performance in occluded and crowded scenes. It could be attributed mostly to the widely used representation of pedestrians, i.e., 2D axis-aligned bounding box, which just describes the approximate location and size of the object. Bounding box models the object as a uniform distribution within the boundary, making pedestrians indistinguishable in occluded and crowded scenes due to much noise. To eliminate the problem, we propose a novel representation based on 2D beta distribution, named Beta Representation. It pictures a pedestrian by explicitly constructing the relationship between full-body and visible boxes, and emphasizes the center of visual mass by assigning different probability values to pixels. As a result, Beta Representation is much better for distinguishing highly-overlapped instances in crowded scenes with a new NMS strategy named BetaNMS. What's more, to fully exploit Beta Representation, a novel pipeline Beta R-CNN equipped with BetaHead and BetaMask is proposed, leading to high detection performance in occluded and crowded scenes.