2段階のクエリベースのインスタンスセグメンテーション方法は、驚くべき結果を達成しました。ただし、それらのセグメント化されたマスクはまだ非常に粗いです。この論文では、高品質で効率的なインスタンスセグメンテーションのためのMaskTransfinerを紹介します。通常の密なテンソルで動作する代わりに、Mask Transfinerは分解して、画像領域を四分木として表します。私たちのトランスフォーマーベースのアプローチは、検出されたエラーが発生しやすいツリーノードのみを処理し、それらのエラーを並行して自己修正します。これらのまばらなピクセルは総数のごく一部を構成しますが、最終的なマスク品質にとって重要です。これにより、Mask Transfinerは、低い計算コストで非常に正確なインスタンスマスクを予測できます。広範な実験により、Mask Transfinerは、3つの一般的なベンチマークで現在のインスタンスセグメンテーション方法よりも優れており、COCOとBDD100Kでは+3.0マスクAP、Cityscapesでは+6.6境界APの大幅なマージンで、2ステージフレームワークとクエリベースフレームワークの両方が大幅に改善されています。コードとトレーニング済みモデルは、http://vis.xyz/pub/transfinerで入手できます。
Two-stage and query-based instance segmentation methods have achieved remarkable results. However, their segmented masks are still very coarse. In this paper, we present Mask Transfiner for high-quality and efficient instance segmentation. Instead of operating on regular dense tensors, our Mask Transfiner decomposes and represents the image regions as a quadtree. Our transformer-based approach only processes detected error-prone tree nodes and self-corrects their errors in parallel. While these sparse pixels only constitute a small proportion of the total number, they are critical to the final mask quality. This allows Mask Transfiner to predict highly accurate instance masks, at a low computational cost. Extensive experiments demonstrate that Mask Transfiner outperforms current instance segmentation methods on three popular benchmarks, significantly improving both two-stage and query-based frameworks by a large margin of +3.0 mask AP on COCO and BDD100K, and +6.6 boundary AP on Cityscapes. Our code and trained models will be available at http://vis.xyz/pub/transfiner.