最近、クエリベースのオブジェクト検出フレームワークは、以前の最先端のオブジェクト検出器と同等のパフォーマンスを実現しています。ただし、このようなフレームワークを完全に活用してインスタンスのセグメンテーションを実行する方法は、未解決の問題のままです。このホワイトペーパーでは、動的マスクヘッドの並列監視によって駆動されるクエリベースのインスタンスセグメンテーション方法であるQueryInst(Instances as Queries)を紹介します。 QueryInstの重要な洞察は、さまざまなステージにわたるオブジェクトクエリの本質的な1対1の対応、および同じステージのマスクRoI機能とオブジェクトクエリ間の1対1の対応を活用することです。このアプローチにより、非クエリベースの多段階インスタンスセグメンテーション方法に固有の明示的な多段階マスクヘッド接続と提案分布の不整合の問題が排除されます。インスタンスセグメンテーションおよびビデオインスタンスセグメンテーション(VIS)タスクにおけるQueryInstの有効性を評価するために、COCO、CityScapes、およびYouTube-VISの3つの難しいベンチマークで広範な実験を実施します。具体的には、ResNet-101-FPNバックボーンを使用して、QueryInstはCOCO test-devで48.1ボックスAPと42.8マスクAPを取得します。これは、ボックスAPとマスクAPの両方の点でHTCより2ポイント高く、2.4倍高速に実行されます。ビデオインスタンスのセグメンテーションの場合、QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを実現し、速度と精度のトレードオフを適切に行います。コードはhttps://github.com/hustvl/QueryInstで入手できます。
Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst (Instances as Queries), a query based instance segmentation method driven by parallel supervision on dynamic mask heads. The key insight of QueryInst is to leverage the intrinsic one-to-one correspondence in object queries across different stages, as well as one-to-one correspondence between mask RoI features and object queries in the same stage. This approach eliminates the explicit multi-stage mask head connection and the proposal distribution inconsistency issues inherent in non-query based multi-stage instance segmentation methods. We conduct extensive experiments on three challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the effectiveness of QueryInst in instance segmentation and video instance segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For video instance segmentation, QueryInst achieves the best performance among all online VIS approaches and strikes a decent speed-accuracy trade-off. Code is available at https://github.com/hustvl/QueryInst.