画像を認識し、それを一貫した領域に分割することは、多くの場合、別のタスクとして扱われます。ただし、人間の視覚には、認識が発生する前に、セグメンテーション階層の一般的な感覚があります。したがって、ラベル付けされていない画像に完全に基づく階層的な画像セグメンテーションを使用して画像認識を学習するように促されました。私たちの洞察は、スーパーピクセル、セグメント、およびフル画像レベルで細かい特徴から粗い特徴を同時に学習し、画像インスタンス間の識別を最大化しながら、一貫性と特徴誘発セグメンテーションの良さを強化することです。私たちのモデルは、3 つの側面でビジョン トランスフォーマーを革新します。 1) 固定形状のパッチ トークンの代わりに適応セグメント トークンを使用します。 2) トランスフォーマー ブロック間にグラフ プーリングを挿入することでトークン階層を作成し、セグメント サイズを増やしてトークン数を減らしながら、一貫したマルチスケール セグメンテーションを自然に生成します。 3)画像ごとの識別を最大化することにより、認識のトレーニングを行いながら、階層的な画像セグメンテーションを無料で作成します。私たちの仕事は、監督なしで最初の同時認識と階層的セグメンテーション モデルを提供します。 ImageNet および PASCAL VOC で検証され、より高い計算効率でより優れた認識とセグメンテーションを実現します。
Recognizing an image and segmenting it into coherent regions are often treated as separate tasks. Human vision, however, has a general sense of segmentation hierarchy before recognition occurs. We are thus inspired to learn image recognition with hierarchical image segmentation based entirely on unlabeled images. Our insight is to learn fine-to-coarse features concurrently at superpixels, segments, and full image levels, enforcing consistency and goodness of feature induced segmentations while maximizing discrimination among image instances. Our model innovates vision transformers on three aspects. 1) We use adaptive segment tokens instead of fixed-shape patch tokens. 2) We create a token hierarchy by inserting graph pooling between transformer blocks, naturally producing consistent multi-scale segmentations while increasing the segment size and reducing the number of tokens. 3) We produce hierarchical image segmentation for free while training for recognition by maximizing image-wise discrimination. Our work delivers the first concurrent recognition and hierarchical segmentation model without any supervision. Validated on ImageNet and PASCAL VOC, it achieves better recognition and segmentation with higher computational efficiency.