最近、テキストベースの説明の任意のカテゴリのセグメンテーションを達成するために、オープン語彙学習が登場しました。これにより、セグメンテーション システムがより汎用的なアプリケーション シナリオに普及しました。ただし、既存の方法は、特定のセグメンテーション タスク用の特殊なアーキテクチャまたはパラメーターの設計に専念しています。これらのカスタマイズされた設計パラダイムは、さまざまなセグメンテーション タスク間の断片化につながり、セグメンテーション モデルの均一性を妨げます。したがって、このホワイトペーパーでは、統合されたユニバーサルでオープンな語彙の画像セグメンテーションを実現するための汎用フレームワークである FreeSeg を提案します。 FreeSeg は、ワンショット トレーニングによってオールインワン ネットワークを最適化し、同じアーキテクチャとパラメーターを使用して、推論手順でさまざまなセグメンテーション タスクをシームレスに処理します。さらに、アダプティブ プロンプト ラーニングにより、統合モデルがタスク認識およびカテゴリに依存する概念を捉えやすくなり、マルチタスクやさまざまなシナリオでのモデルの堅牢性が向上します。広範な実験結果は、FreeSeg が 3 つのセグメンテーション タスクのパフォーマンスと一般化において新しい最先端の結果を確立することを示しています。これは、最高のタスク固有のアーキテクチャよりも大幅に優れています: セマンティック セグメンテーションで 5.5% mIoU、インスタンスで 17.6% mAPセグメンテーション、COCO の目に見えないクラスのパノプティック セグメンテーションで 20.1% PQ。
Recently, open-vocabulary learning has emerged to accomplish segmentation for arbitrary categories of text-based descriptions, which popularizes the segmentation system to more general-purpose application scenarios. However, existing methods devote to designing specialized architectures or parameters for specific segmentation tasks. These customized design paradigms lead to fragmentation between various segmentation tasks, thus hindering the uniformity of segmentation models. Hence in this paper, we propose FreeSeg, a generic framework to accomplish Unified, Universal and Open-Vocabulary Image Segmentation. FreeSeg optimizes an all-in-one network via one-shot training and employs the same architecture and parameters to handle diverse segmentation tasks seamlessly in the inference procedure. Additionally, adaptive prompt learning facilitates the unified model to capture task-aware and category-sensitive concepts, improving model robustness in multi-task and varied scenarios. Extensive experimental results demonstrate that FreeSeg establishes new state-of-the-art results in performance and generalization on three segmentation tasks, which outperforms the best task-specific architectures by a large margin: 5.5% mIoU on semantic segmentation, 17.6% mAP on instance segmentation, 20.1% PQ on panoptic segmentation for the unseen class on COCO.