arXiv reaDer
Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression Grounding
参照表現の接地を解決するための一般的なフレームワークは、2段階のプロセスに基づいています。1)オブジェクト検出器を使用して提案を検出し、2)指示対象を提案の1つに接地します。既存の2段階のソリューションは、主に、表現と提案を一致させることを目的とした接地ステップに焦点を合わせています。この論文では、これらの方法は、2つの段階での提案の役割間の明らかな不一致を見落としていると主張します。つまり、提案にすべての適切なインスタンスが含まれていることを期待して、検出の信頼性(つまり、表現にとらわれない)のみに基づいて提案を生成します。式(つまり、式を意識する)。この不一致のために、現在の2段階の方法では、検出された提案とグラウンドトゥルースの提案の間でパフォーマンスが大幅に低下します。そのために、最初の段階で式を意識した提案を行う最初の方法であるRef-NMSを提案します。 Ref-NMSは、式内のすべての名詞を重要なオブジェクトと見なし、各ボックスを重要なオブジェクトに揃えるためのスコアを予測する軽量モジュールを導入します。これらのスコアは、NMS操作をガイドして、式に関係のないボックスを除外し、重要なオブジェクトのリコールを増やして、接地パフォーマンスを大幅に向上させることができます。 Ref-NMSは接地ステップに依存しないため、最先端の2段階方式に簡単に統合できます。いくつかのバックボーン、ベンチマーク、およびタスクに関する広範なアブレーション研究は、Ref-NMSの優位性を一貫して示しています。コードはで入手できます。
The prevailing framework for solving referring expression grounding is based on a two-stage process: 1) detecting proposals with an object detector and 2) grounding the referent to one of the proposals. Existing two-stage solutions mostly focus on the grounding step, which aims to align the expressions with the proposals. In this paper, we argue that these methods overlook an obvious mismatch between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., expression-agnostic), hoping that the proposals contain all right instances in the expression (i.e., expression-aware). Due to this mismatch, current two-stage methods suffer from a severe performance drop between detected and ground-truth proposals. To this end, we propose Ref-NMS, which is the first method to yield expression-aware proposals at the first stage. Ref-NMS regards all nouns in the expression as critical objects, and introduces a lightweight module to predict a score for aligning each box with a critical object. These scores can guide the NMS operation to filter out the boxes irrelevant to the expression, increasing the recall of critical objects, resulting in a significantly improved grounding performance. Since Ref- NMS is agnostic to the grounding step, it can be easily integrated into any state-of-the-art two-stage method. Extensive ablation studies on several backbones, benchmarks, and tasks consistently demonstrate the superiority of Ref-NMS. Codes are available at:
updated: Mon Dec 14 2020 08:19:22 GMT+0000 (UTC)
published: Thu Sep 03 2020 05:04:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト