arXiv reaDer
スペクトルガイドによる多粒度参照ビデオオブジェクトセグメンテーション
Spectrum-guided Multi-granularity Referring Video Object Segmentation
現在の参照ビデオ オブジェクト セグメンテーション (R-VOS) 技術は、エンコードされた (低解像度) ビジョン言語特徴から条件付きカーネルを抽出して、デコードされた高解像度特徴をセグメント化します。これにより、重大な特徴ドリフトが発生し、セグメンテーション カーネルが順方向計算中にそれを認識するのに苦労することがわかりました。これは、セグメンテーション カーネルの機能に悪影響を及ぼします。ドリフト問題に対処するために、エンコードされた特徴に対して直接セグメンテーションを実行し、視覚的な詳細を採用してマスクをさらに最適化する、スペクトルに基づく多粒度 (SgMg) アプローチを提案します。さらに、効果的なマルチモーダル表現のためにスペクトル領域でフレーム内グローバルインタラクションを実行するスペクトルガイド型クロスモーダルフュージョン(SCF)を提案します。最後に、ビデオ内の複数の参照オブジェクトの同時セグメンテーションを可能にする新しいパラダイムであるマルチオブジェクト R-VOS を実行するように SgMg を拡張します。これにより、R-VOS が高速になるだけでなく、より実用的になります。広範な実験により、SgMg が 4 つのビデオ ベンチマーク データセットで最先端のパフォーマンスを達成し、Ref-YouTube-VOS で最も近い競合他社を 2.8% ポイント上回るパフォーマンスを示していることが示されています。当社の拡張 SgMg はマルチオブジェクト R-VOS を可能にし、満足のいくパフォーマンスを維持しながら約 3 倍高速に実行します。コードは https://github.com/bo-miao/SgMg で入手できます。
Current referring video object segmentation (R-VOS) techniques extract conditional kernels from encoded (low-resolution) vision-language features to segment the decoded high-resolution features. We discovered that this causes significant feature drift, which the segmentation kernels struggle to perceive during the forward computation. This negatively affects the ability of segmentation kernels. To address the drift problem, we propose a Spectrum-guided Multi-granularity (SgMg) approach, which performs direct segmentation on the encoded features and employs visual details to further optimize the masks. In addition, we propose Spectrum-guided Cross-modal Fusion (SCF) to perform intra-frame global interactions in the spectral domain for effective multimodal representation. Finally, we extend SgMg to perform multi-object R-VOS, a new paradigm that enables simultaneous segmentation of multiple referred objects in a video. This not only makes R-VOS faster, but also more practical. Extensive experiments show that SgMg achieves state-of-the-art performance on four video benchmark datasets, outperforming the nearest competitor by 2.8% points on Ref-YouTube-VOS. Our extended SgMg enables multi-object R-VOS, runs about 3 times faster while maintaining satisfactory performance. Code is available at https://github.com/bo-miao/SgMg.
updated: Tue Jul 25 2023 14:35:25 GMT+0000 (UTC)
published: Tue Jul 25 2023 14:35:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト