arXiv reaDer
QueryInst: インスタンスセグメンテーションのための並列教師ありドマスククエリ
QueryInst: Parallelly Supervised Mask Query for Instance Segmentation
近年、クエリベースのオブジェクト検出フレームワークは、これまでの最先端のオブジェクト検出器と同等の性能を達成している。しかし、このようなフレームワークをインスタンスセグメンテーションにどのように活用するかは未解決の問題である。本論文では、クエリベースのインスタンスセグメンテーション手法であるQueryInstを紹介する。QueryInstは、動的なマスクヘッドの並列監視によって駆動される。QueryInstにおける重要な洞察は、異なるステージ間でのオブジェクトクエリの本質的な一対一対応、および同じステージでのマスクRoI特徴とオブジェクトクエリの一対一対応を活用することである。このアプローチにより、クエリを使用しないマルチステージのインスタンスセグメンテーション手法に内在する、明示的なマルチステージ マスクヘッド接続と提案分布の不整合の問題が解消される。本研究では、COCO、CityScapes、YouTube-VISという3つのチャレンジングなベンチマークを用いて大規模な実験を行い、インスタンスセグメンテーションおよびビデオインスタンスセグメンテーション(VIS)タスクにおけるQueryInstの有効性を評価した。具体的には、ResNet-101-FPNバックボーンを使用したCOCO test-devにおいて、QueryInstは48.1のボックスAPと42.8のマスクAPを獲得し、ボックスAPとマスクAPの両方においてHTCよりも2ポイント高く、2.4倍の速度で動作した。ビデオインスタンスのセグメンテーションにおいて、QueryInstはすべてのオンラインVISアプローチの中で最高の性能を達成し、速度と精度の適切なトレードオフを実現する。コードは https://github.com/hustvl/QueryInst で公開している。
Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst, a query based instance segmentation method driven by parallel supervision on dynamic mask heads. The key insight of QueryInst is to leverage the intrinsic one-to-one correspondence in object queries across different stages, as well as one-to-one correspondence between mask RoI features and object queries in the same stage. This approach eliminates the explicit multi-stage mask head connection and the proposal distribution inconsistency issues inherent in non-query based multi-stage instance segmentation methods. We conduct extensive experiments on three challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the effectiveness of QueryInst in instance segmentation and video instance segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For video instance segmentation, QueryInst achieves the best performance among all online VIS approaches and strikes a decent speed-accuracy trade-off. Code is available at https://github.com/hustvl/QueryInst.
updated: Sun May 16 2021 16:46:21 GMT+0000 (UTC)
published: Wed May 05 2021 08:38:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト