arXiv reaDer
高品質のエンティティ セグメンテーション
High-Quality Entity Segmentation
高密度の画像セグメンテーション タスク (セマンティック、パノプティックなど) は画像編集に役立ちますが、既存の方法は、無制限の画像ドメイン、クラス、および画像の解像度と品質のバリエーションがある実際の環境ではほとんど一般化できません。これらの観察に動機付けられて、私たちは、野生での高品質の高密度セグメンテーションに重点を置いて、新しいエンティティ セグメンテーション データセットを構築します。このデータセットには、トレーニングとテスト用の豊富な高解像度画像と高品質のマスク アノテーションと共に、さまざまな画像ドメインとエンティティにまたがる画像が含まれています。データセットの高品質と解像度の性質を考慮して、高解像度画像でのインスタンスレベルのセグメンテーションの難しさに取り組むように設計された CropFormer を提案します。よりきめ細かい画像の詳細と完全な画像を提供する高解像度画像トリミングを融合することにより、マスク予測を改善します。 CropFormer は、複数の画像ビューからのマスク予測を効果的に融合できる最初のクエリベースの Transformer アーキテクチャです。これは、画像全体とそのトリミング全体で同じエンティティを効果的に関連付けるクエリを学習することによって実現されます。 CropFormer を使用すると、困難なエンティティ セグメンテーション タスクで 1.9 という大幅な AP ゲインを達成できます。さらに、CropFormer は、従来のセグメンテーション タスクとデータセットの精度を一貫して向上させます。データセットとコードは http://luqi.info/entityv2.github.io/ でリリースされます。
Dense image segmentation tasks e.g., semantic, panoptic) are useful for image editing, but existing methods can hardly generalize well in an in-the-wild setting where there are unrestricted image domains, classes, and image resolution and quality variations. Motivated by these observations, we construct a new entity segmentation dataset, with a strong focus on high-quality dense segmentation in the wild. The dataset contains images spanning diverse image domains and entities, along with plentiful high-resolution images and high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer which is designed to tackle the intractability of instance-level segmentation on high-resolution images. It improves mask prediction by fusing high-res image crops that provide more fine-grained image details and the full image. CropFormer is the first query-based Transformer architecture that can effectively fuse mask predictions from multiple image views, by learning queries that effectively associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of 1.9 on the challenging entity segmentation task. Furthermore, CropFormer consistently improves the accuracy of traditional segmentation tasks and datasets. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
updated: Sun Apr 02 2023 22:01:17 GMT+0000 (UTC)
published: Thu Nov 10 2022 18:58:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト