以前のビデオオブジェクトセグメンテーションアプローチは、主に外観と動きの間のシンプレックスソリューションの使用に焦点を合わせており、これら2つのキュー間およびキュー間での機能コラボレーションの効率を制限していました。この作業では、融合とデコードの段階からクロスモーダル機能を活用する際の動きと外観の間のより良い相互抑制スキームを検討することにより、この問題に対処するための新規で効率的な全二重戦略ネットワーク(FSNet)を研究します。具体的には、リレーショナルクロスアテンションモジュール(RCAM)を導入して、埋め込みサブスペース全体で双方向のメッセージ伝播を実現します。モデルの堅牢性を向上させ、時空間埋め込みから一貫性のない機能を更新するために、RCAMの後に双方向精製モジュール(BPM)を採用しています。 5つの人気のあるベンチマークでの広範な実験により、FSNetはさまざまな困難なシナリオ(モーションブラー、オクルージョンなど)に対して堅牢であり、ビデオオブジェクトのセグメンテーションとビデオの顕著なオブジェクト検出タスクの両方で既存の最先端に対して良好なパフォーマンスを達成することが示されています。このプロジェクトは、https://dpfan.net/FSNetで公開されています。
Previous video object segmentation approaches mainly focus on using simplex solutions between appearance and motion, limiting feature collaboration efficiency among and across these two cues. In this work, we study a novel and efficient full-duplex strategy network (FSNet) to address this issue, by considering a better mutual restraint scheme between motion and appearance in exploiting the cross-modal features from the fusion and decoding stage. Specifically, we introduce the relational cross-attention module (RCAM) to achieve bidirectional message propagation across embedding sub-spaces. To improve the model's robustness and update the inconsistent features from the spatial-temporal embeddings, we adopt the bidirectional purification module (BPM) after the RCAM. Extensive experiments on five popular benchmarks show that our FSNet is robust to various challenging scenarios (e.g., motion blur, occlusion) and achieves favourable performance against existing cutting-edges both in the video object segmentation and video salient object detection tasks. The project is publicly available at: https://dpfan.net/FSNet.