このペーパーでは、任意の粒度であらゆるものをセグメント化および認識できる汎用画像セグメンテーション モデルである Semantic-SAM を紹介します。私たちのモデルには、意味の認識と粒度の豊富さという 2 つの重要な利点があります。セマンティック認識を実現するために、3 つの粒度にわたって複数のデータセットを統合し、オブジェクトとパーツの分離分類を導入します。これにより、モデルは豊富なセマンティック情報を取得できるようになります。多粒度機能については、トレーニング中に多肢選択学習スキームを提案し、各クリックで複数のグラウンドトゥルース マスクに対応する複数のレベルでマスクを生成できるようにします。特に、この作業は、SA-1B、汎用、および部分セグメンテーション データセットでモデルを共同トレーニングする最初の試みを表しています。実験結果と視覚化は、私たちのモデルが意味論的な認識と粒度の豊富さをうまく達成していることを示しています。さらに、SA-1B トレーニングをパノプティックやパーツ セグメンテーションなどの他のセグメンテーション タスクと組み合わせると、パフォーマンスの向上につながります。さらなる探索と評価のために、コードとデモを提供します。
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.