画像のセグメンテーションは、コンピュータ ビジョンの基本的なタスクです。教師ありメソッドをトレーニングするためのデータ アノテーションは、労働集約的であり、教師なしメソッドの動機付けとなる可能性があります。現在のアプローチは、多くの場合、事前トレーニングされたネットワークから深い特徴を抽出してグラフを構築することに依存しており、K 平均法や正規化カットなどの古典的なクラスタリング手法が後処理ステップとして適用されます。ただし、このアプローチでは、特徴にエンコードされた高次元情報がペアごとのスカラー アフィニティに還元されます。この制限に対処するために、この研究では、同じクラスタリング目的関数に対して最適化しながら、古典的なクラスタリング手法を置き換える軽量のグラフ ニューラル ネットワーク (GNN) を導入します。既存の方法とは異なり、私たちの GNN は、ローカル画像特徴と生の特徴の間のペアごとの類似性の両方を入力として受け取ります。生の特徴とクラスタリング目標との間のこの直接的なつながりにより、異なるグラフ間でクラスターの分類を暗黙的に実行できるようになり、追加の後処理ステップを必要とせずに部分セマンティック セグメンテーションが実現します。画像セグメンテーション GNN をトレーニングするために、古典的なクラスタリング目標を自己教師あり損失関数として定式化する方法を示します。さらに、相関クラスタリング (CC) 目標を採用して、クラスタ数を定義せずにクラスタリングを実行し、k-less クラスタリングを可能にします。提案された方法をオブジェクトの位置特定、セグメンテーション、セマンティック部分セグメンテーションのタスクに適用し、複数のベンチマークで最先端のパフォーマンスを上回りました。
Image segmentation is a fundamental task in computer vision. Data annotation for training supervised methods can be labor-intensive, motivating unsupervised methods. Current approaches often rely on extracting deep features from pre-trained networks to construct a graph, and classical clustering methods like k-means and normalized-cuts are then applied as a post-processing step. However, this approach reduces the high-dimensional information encoded in the features to pair-wise scalar affinities. To address this limitation, this study introduces a lightweight Graph Neural Network (GNN) to replace classical clustering methods while optimizing for the same clustering objective function. Unlike existing methods, our GNN takes both the pair-wise affinities between local image features and the raw features as input. This direct connection between the raw features and the clustering objective enables us to implicitly perform classification of the clusters between different graphs, resulting in part semantic segmentation without the need for additional post-processing steps. We demonstrate how classical clustering objectives can be formulated as self-supervised loss functions for training an image segmentation GNN. Furthermore, we employ the Correlation-Clustering (CC) objective to perform clustering without defining the number of clusters, allowing for k-less clustering. We apply the proposed method for object localization, segmentation, and semantic part segmentation tasks, surpassing state-of-the-art performance on multiple benchmarks.