arXiv reaDer
StageInteractor: クロスステージ インタラクションを備えたクエリベースのオブジェクト検出器
StageInteractor: Query-based Object Detector with Cross-stage Interaction
以前のオブジェクト検出器は、密なグリッド ポイントまたは多数のプリセット アンカーに基づいて予測を行います。これらの検出器のほとんどは、1 対多のラベル割り当て戦略でトレーニングされています。それどころか、最近のクエリベースのオブジェクト検出器は、学習可能なクエリのまばらなセットと一連のデコーダ層に依存しています。トレーニング中の詳細な監視のために、1 対 1 のラベル割り当てが各レイヤーに個別に適用されます。ただし、クエリベースのオブジェクト検出は大きな成功を収めていますが、この 1 対 1 のラベル割り当て戦略では、検出器に強力なきめの細かい識別とモデリング能力が求められます。上記の問題を解決するために、この論文では、StageInteractor と呼ばれるクロスステージ相互作用を備えた新しいクエリベースのオブジェクト検出器を提案します。順伝播中に、軽量アダプターで動的オペレーターを再利用することにより、このモデリング機能を改善する効率的な方法を考え出しました。ラベルアサインに関しては、1対1のラベルアサインに続いてクロスステージラベルアサイナーが適用される。このアサイナーを使用すると、トレーニング ターゲット クラスのラベルがステージ全体で収集され、各デコーダー レイヤーで適切な予測に再割り当てされます。 MS COCO ベンチマークでは、モデルはベースラインを 2.2 AP 改善し、バックボーンとして ResNet-50、100 クエリ、12 トレーニング エポックを使用して 44.8 AP を達成しています。より長いトレーニング時間と 300 クエリで、StageInteractor は ResNeXt-101-DCN と Swin-S でそれぞれ 51.1 AP と 52.2 AP を達成します。
Previous object detectors make predictions based on dense grid points or numerous preset anchors. Most of these detectors are trained with one-to-many label assignment strategies. On the contrary, recent query-based object detectors depend on a sparse set of learnable queries and a series of decoder layers. The one-to-one label assignment is independently applied on each layer for the deep supervision during training. Despite the great success of query-based object detection, however, this one-to-one label assignment strategy demands the detectors to have strong fine-grained discrimination and modeling capacity. To solve the above problems, in this paper, we propose a new query-based object detector with cross-stage interaction, coined as StageInteractor. During the forward propagation, we come up with an efficient way to improve this modeling ability by reusing dynamic operators with lightweight adapters. As for the label assignment, a cross-stage label assigner is applied subsequent to the one-to-one label assignment. With this assigner, the training target class labels are gathered across stages and then reallocated to proper predictions at each decoder layer. On MS COCO benchmark, our model improves the baseline by 2.2 AP, and achieves 44.8 AP with ResNet-50 as backbone, 100 queries and 12 training epochs. With longer training time and 300 queries, StageInteractor achieves 51.1 AP and 52.2 AP with ResNeXt-101-DCN and Swin-S, respectively.
updated: Mon Jan 15 2024 13:03:31 GMT+0000 (UTC)
published: Tue Apr 11 2023 04:50:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト