この論文では、自己監視機能のスペクトルクラスタリングを活用することにより、教師なし顕著なオブジェクト検出(SOD)の困難なタスクに取り組みます。私たちは次の貢献をします。(i)スペクトルクラスタリングを再検討し、顕著なオブジェクトのピクセルをグループ化する可能性を示します。 (ii)MoCov2、SwAV、DINOなど、さまざまな自己監視モデルから計算された画像特徴に対するスペクトルクラスタリングの複数のアプリケーションからのマスク提案を前提として、顕著なマスクを選択するためのシンプルで効果的な勝者投票メカニズムを提案します。フレーミングと独自性に基づいてオブジェクトの事前情報を活用する。 (iii)選択したオブジェクトのセグメンテーションを疑似グラウンドトゥルースマスクとして使用して、SelfMaskと呼ばれる顕著なオブジェクト検出器をトレーニングします。これは、3つの教師なしSODベンチマークでの以前のアプローチよりも優れています。コードはhttps://github.com/NoelShin/selfmaskで公開されています。
In this paper, we tackle the challenging task of unsupervised salient object detection (SOD) by leveraging spectral clustering on self-supervised features. We make the following contributions: (i) We revisit spectral clustering and demonstrate its potential to group the pixels of salient objects; (ii) Given mask proposals from multiple applications of spectral clustering on image features computed from various self-supervised models, e.g., MoCov2, SwAV, DINO, we propose a simple but effective winner-takes-all voting mechanism for selecting the salient masks, leveraging object priors based on framing and distinctiveness; (iii) Using the selected object segmentation as pseudo groundtruth masks, we train a salient object detector, dubbed SelfMask, which outperforms prior approaches on three unsupervised SOD benchmarks. Code is publicly available at https://github.com/NoelShin/selfmask.