教師なしビデオ オブジェクト セグメンテーションは近年大幅に進歩しましたが、ビデオ マスク データセットの手動アノテーションは高価であり、利用可能なデータセットの多様性が制限されます。 Segment Anything Model (SAM) は、画像セグメンテーションのための新しいプロンプト駆動のパラダイムを導入し、これまで探求されていなかったさまざまな機能を解放します。この論文では、ビデオ マスク ラベルを必要とせずに教師なしビデオ オブジェクトのセグメンテーションに SAM を利用する UVOSAM と呼ばれる新しいパラダイムを提案します。インスタンスの検出と ID の関連付けにおける SAM の制限に対処するために、顕著な前景オブジェクトの軌道を自動的に生成するビデオ顕著オブジェクト追跡ネットワークを導入します。これらの軌跡は、SAM がフレームごとにビデオ マスクを生成するためのプロンプトとして機能します。私たちの実験結果は、UVOSAM が現在のマスク監視手法よりも大幅に優れていることを示しています。これらの発見は、UVOSAM が教師なしビデオ オブジェクトのセグメンテーションを改善し、手動アノテーションのコストを削減する可能性があることを示唆しています。
Unsupervised video object segmentation has made significant progress in recent years, but the manual annotation of video mask datasets is expensive and limits the diversity of available datasets. The Segment Anything Model (SAM) has introduced a new prompt-driven paradigm for image segmentation, unlocking a range of previously unexplored capabilities. In this paper, we propose a novel paradigm called UVOSAM, which leverages SAM for unsupervised video object segmentation without requiring video mask labels. To address SAM's limitations in instance discovery and identity association, we introduce a video salient object tracking network that automatically generates trajectories for prominent foreground objects. These trajectories then serve as prompts for SAM to produce video masks on a frame-by-frame basis. Our experimental results demonstrate that UVOSAM significantly outperforms current mask-supervised methods. These findings suggest that UVOSAM has the potential to improve unsupervised video object segmentation and reduce the cost of manual annotation.