arXiv reaDer
効率的なDETR:高密度の事前設定によるエンドツーエンドのオブジェクト検出器の改善
Efficient DETR: Improving End-to-End Object Detector with Dense Prior
DETRやDeformableDETRなど、最近提案されたエンドツーエンドのトランスフォーマー検出器は、6つのデコーダーレイヤーをスタックしてオブジェクトクエリを繰り返し更新するカスケード構造を備えています。これがないと、パフォーマンスが大幅に低下します。このホワイトペーパーでは、オブジェクトクエリと参照ポイントを含むオブジェクトコンテナのランダムな初期化が、主に複数の反復の要件の原因であることを調査します。私たちの調査結果に基づいて、エンドツーエンドのオブジェクト検出のためのシンプルで効率的なパイプラインであるEfficientDETRを提案します。高密度検出とスパースセット検出の両方を利用することにより、Efficient DETRは、オブジェクトコンテナを初期化する前に高密度を活用し、1デコーダ構造と6デコーダ構造のギャップをもたらします。 MS COCOで実施された実験は、3つのエンコーダ層と1つのデコーダ層のみを使用する当社の方法が、最先端のオブジェクト検出方法で競争力のあるパフォーマンスを達成することを示しています。効率的なDETRは、混雑したシーンでも堅牢です。これは、CrowdHumanデータセットの最新の検出器を大幅に上回っています。
The recently proposed end-to-end transformer detectors, such as DETR and Deformable DETR, have a cascade structure of stacking 6 decoder layers to update object queries iteratively, without which their performance degrades seriously. In this paper, we investigate that the random initialization of object containers, which include object queries and reference points, is mainly responsible for the requirement of multiple iterations. Based on our findings, we propose Efficient DETR, a simple and efficient pipeline for end-to-end object detection. By taking advantage of both dense detection and sparse set detection, Efficient DETR leverages dense prior to initialize the object containers and brings the gap of the 1-decoder structure and 6-decoder structure. Experiments conducted on MS COCO show that our method, with only 3 encoder layers and 1 decoder layer, achieves competitive performance with state-of-the-art object detection methods. Efficient DETR is also robust in crowded scenes. It outperforms modern detectors on CrowdHuman dataset by a large margin.
updated: Sat Apr 03 2021 06:14:24 GMT+0000 (UTC)
published: Sat Apr 03 2021 06:14:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト