HoughNet: Integrating near and long-range evidence for visual detection
このホワイトペーパーでは、1段階のアンカーフリーの投票ベースのボトムアップオブジェクト検出方法であるHoughNetについて説明します。一般化されたハフ変換に触発されたHoughNetは、特定の場所に投じられた投票の合計によって、その場所にあるオブジェクトの存在を判断します。投票は、対数極投票フィールドに基づいて、近距離と長距離の両方の場所から収集されます。この投票メカニズムのおかげで、HoughNetは、視覚認識のために近距離と長距離の両方のクラス条件付き証拠を統合することができ、それによって、通常はローカル証拠のみに依存する現在のオブジェクト検出方法を一般化および強化します。 COCOデータセットでは、HoughNetの最良のモデルは46.4 AP(および65.1 AP_50)を達成し、ボトムアップオブジェクト検出の最先端と同等のパフォーマンスを発揮し、ほとんどの主要な1段階および2段階の方法を上回ります。さらに、他の視覚的検出タスク、つまり、ビデオオブジェクト検出、インスタンスセグメンテーション、3Dオブジェクト検出、人間の姿勢推定のためのキーポイント検出、および追加の「写真へのラベル」画像生成タスクでの提案の有効性を検証します。投票モジュールの統合により、すべての場合で一貫してパフォーマンスが向上します。コードはで入手できます。
This paper presents HoughNet, a one-stage, anchor-free, voting-based, bottom-up object detection method. Inspired by the Generalized Hough Transform, HoughNet determines the presence of an object at a certain location by the sum of the votes cast on that location. Votes are collected from both near and long-distance locations based on a log-polar vote field. Thanks to this voting mechanism, HoughNet is able to integrate both near and long-range, class-conditional evidence for visual recognition, thereby generalizing and enhancing current object detection methodology, which typically relies on only local evidence. On the COCO dataset, HoughNet's best model achieves 46.4 AP (and 65.1 AP_50), performing on par with the state-of-the-art in bottom-up object detection and outperforming most major one-stage and two-stage methods. We further validate the effectiveness of our proposal in other visual detection tasks, namely, video object detection, instance segmentation, 3D object detection and keypoint detection for human pose estimation, and an additional ``labels to photo`` image generation task, where the integration of our voting module consistently improves performance in all cases. Code is available at
updated: Wed Apr 14 2021 11:05:29 GMT+0000 (UTC)
published: Wed Apr 14 2021 11:05:29 GMT+0000 (UTC)
