Full-Duplex Strategy for Video Object Segmentation
外観と動きは、ビデオオブジェクトセグメンテーション(VOS)の2つの重要な情報源です。以前の方法は、主にシンプレックスソリューションの使用に焦点を合わせており、これら2つのキュー間およびキュー間での機能コラボレーションの上限を低くしています。この論文では、FSNet(全二重戦略ネットワーク)と呼ばれる新しいフレームワークを研究します。これは、埋め込み部分空間全体で双方向のメッセージ伝播を実現するためのリレーショナルクロスアテンションモジュール(RCAM)を設計します。さらに、双方向精製モジュール(BPM)が導入され、時空間埋め込み間の一貫性のない機能が更新され、モデルの堅牢性が効果的に向上します。全二重戦略内の相互抑制を考慮することにより、FSNetは、融合およびデコード段階の前にクロスモーダル機能の受け渡し(つまり、送信と受信)を同時に実行し、さまざまな困難なシナリオ(モーションブラー、オクルージョン)VOSで。 5つの一般的なベンチマーク(つまり、DAVIS_16、FBMS、MCL、SegTrack-V2、およびDAVSOD_19)での広範な実験は、FSNetがVOSとビデオの顕著なオブジェクト検出タスクの両方で他の最先端技術よりも優れていることを示しています。
Appearance and motion are two important sources of information in video object segmentation (VOS). Previous methods mainly focus on using simplex solutions, lowering the upper bound of feature collaboration among and across these two cues. In this paper, we study a novel framework, termed the FSNet (Full-duplex Strategy Network), which designs a relational cross-attention module (RCAM) to achieve the bidirectional message propagation across embedding subspaces. Furthermore, the bidirectional purification module (BPM) is introduced to update the inconsistent features between the spatial-temporal embeddings, effectively improving the model robustness. By considering the mutual restraint within the full-duplex strategy, our FSNet performs the cross-modal feature-passing (i.e., transmission and receiving) simultaneously before the fusion and decoding stage, making it robust to various challenging scenarios (e.g., motion blur, occlusion) in VOS. Extensive experiments on five popular benchmarks (i.e., DAVIS_16, FBMS, MCL, SegTrack-V2, and DAVSOD_19) show that our FSNet outperforms other state-of-the-arts for both the VOS and video salient object detection tasks.
