arXiv reaDer
カットアウト予測とタグ付けによる自己監視ビデオオブジェクトのセグメンテーション
Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging
正確なオブジェクトセグメンテーションのためのより良いオブジェクト背景識別性を達成するために努力する新しい自己監視ビデオオブジェクトセグメンテーション(VOS)アプローチを提案します。以前の自己監視VOS手法とは異なり、私たちのアプローチは、オブジェクトの外観だけを使用するのではなく、オブジェクトと背景の両方の情報を考慮してオブジェクトと背景の識別可能性を確保する識別学習損失の定式化に基づいています。識別学習損失は、カットアウトベースの再構成(カットアウト領域はフレームの一部を表し、そのピクセルはいくつかの定数値に置き換えられます)とタグ予測損失項で構成されます。カットアウトベースの再構築用語は、単純なカットアウトスキームを利用して、現在のフレームと前のフレームの間のピクセル単位の対応を学習し、カットアウト領域が追加された元の現在のフレームを再構築します。導入されたカットアウトパッチは、対象のオブジェクトの重要な機能に重要性の低いものと同じくらい焦点を合わせるようにモデルをガイドし、それによって、オクルージョンベースのシナリオに対処するためにモデルを暗黙的に装備します。次に、タグ予測項は、カットアウト領域内の類似するすべてのピクセルのタグをグループ化し、再構築された残りのフレームピクセルのタグからそれらを分離することにより、オブジェクトと背景の分離可能性を促進します。さらに、複数のスケールで微細な構造情報をキャプチャすることにより、小さなオブジェクトのセグメンテーションの問題に対処するズームインスキームを紹介します。 CT-VOSと呼ばれる私たちの提案するアプローチは、DAVIS-2017とYoutube-VOSという2つの挑戦的なベンチマークで最先端の結果を達成します。詳細なアブレーションは、オブジェクトの背景の識別可能性を効果的にキャプチャするための提案された損失定式化の重要性と、小さなサイズのオブジェクトを正確にセグメント化するためのズームインスキームの影響を示しています。
We propose a novel self-supervised Video Object Segmentation (VOS) approach that strives to achieve better object-background discriminability for accurate object segmentation. Distinct from previous self-supervised VOS methods, our approach is based on a discriminative learning loss formulation that takes into account both object and background information to ensure object-background discriminability, rather than using only object appearance. The discriminative learning loss comprises cutout-based reconstruction (cutout region represents part of a frame, whose pixels are replaced with some constant values) and tag prediction loss terms. The cutout-based reconstruction term utilizes a simple cutout scheme to learn the pixel-wise correspondence between the current and previous frames in order to reconstruct the original current frame with added cutout region in it. The introduced cutout patch guides the model to focus as much on the significant features of the object of interest as the less significant ones, thereby implicitly equipping the model to address occlusion-based scenarios. Next, the tag prediction term encourages object-background separability by grouping tags of all pixels in the cutout region that are similar, while separating them from the tags of the rest of the reconstructed frame pixels. Additionally, we introduce a zoom-in scheme that addresses the problem of small object segmentation by capturing fine structural information at multiple scales. Our proposed approach, termed CT-VOS, achieves state-of-the-art results on two challenging benchmarks: DAVIS-2017 and Youtube-VOS. A detailed ablation showcases the importance of the proposed loss formulation to effectively capture object-background discriminability and the impact of our zoom-in scheme to accurately segment small-sized objects.
updated: Fri Apr 22 2022 17:53:27 GMT+0000 (UTC)
published: Fri Apr 22 2022 17:53:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト