arXiv reaDer
LOCATE: フローガイド付きグラフカットとブートストラップ自己トレーニングによる自己監視型オブジェクト検出
LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training
人間の監督なしで画像およびビデオ データセット内のオブジェクトのセグメンテーションを学習することは、困難な問題です。人間は、一緒に動くものは一緒に属することを示唆する運命共同体のゲシュタルト原理を利用して、ビデオ内の動く顕著な物体を簡単に識別します。このアイデアに基づいて、動きと外観の情報を活用して高品質のオブジェクト セグメンテーション マスクを生成する、自己監視型オブジェクト発見アプローチを提案します。具体的には、画像上の従来のグラフ カットを再設計して、外観情報と線形結合した動き情報を含めてエッジの重みを生成します。注目すべきことに、このステップでは、複数のベンチマークで現在の最先端のものと同等のオブジェクト セグメンテーション マスクが生成されます。パフォーマンスをさらに向上させるために、これらの予備マスクでトレーニングされたセグメンテーション ネットワークを疑似グラウンド トゥルースとしてブートストラップし、自己トレーニングを通じて自身の出力から学習します。私たちは、複数の標準的なビデオ オブジェクト セグメンテーション、画像顕著性検出、およびオブジェクト セグメンテーション ベンチマークに対する LOCATE という名前のアプローチの有効性を実証し、最先端の方法と同等、多くの場合それを上回る結果を達成しました。また、自然界の画像に関する定性的研究を通じて、新しい領域へのアプローチの応用可能性を実証します。さらに、設計の選択をサポートする広範なアブレーション解析を提示し、提案する方法の各コンポーネントの貢献を強調します。
Learning object segmentation in image and video datasets without human supervision is a challenging problem. Humans easily identify moving salient objects in videos using the gestalt principle of common fate, which suggests that what moves together belongs together. Building upon this idea, we propose a self-supervised object discovery approach that leverages motion and appearance information to produce high-quality object segmentation masks. Specifically, we redesign the traditional graph cut on images to include motion information in a linear combination with appearance information to produce edge weights. Remarkably, this step produces object segmentation masks comparable to the current state-of-the-art on multiple benchmarks. To further improve performance, we bootstrap a segmentation network trained on these preliminary masks as pseudo-ground truths to learn from its own outputs via self-training. We demonstrate the effectiveness of our approach, named LOCATE, on multiple standard video object segmentation, image saliency detection, and object segmentation benchmarks, achieving results on par with and, in many cases surpassing state-of-the-art methods. We also demonstrate the transferability of our approach to novel domains through a qualitative study on in-the-wild images. Additionally, we present extensive ablation analysis to support our design choices and highlight the contribution of each component of our proposed method.
updated: Sat Dec 02 2023 18:06:55 GMT+0000 (UTC)
published: Tue Aug 22 2023 07:27:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト