arXiv reaDer
ボックスとマスクの統合: 統合されたビジュアル トラッキングとセグメンテーションのためのマルチオブジェクト フレームワーク
Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation
特定のオブジェクトを空間的および時間的に追跡することは、ビジュアル オブジェクト トラッキング (VOT) とビデオ オブジェクト セグメンテーション (VOS) の共通の目的です。ジョイントトラッキングとセグメンテーションはいくつかの研究で試みられていますが、多くの場合、初期化と予測においてボックスとマスクの両方の完全な互換性が欠けており、主に単一オブジェクトのシナリオに焦点を当てています。これらの制限に対処するために、この文書では、MITS と呼ばれる、統合されたトラッキングとセグメンテーションのためのマルチオブジェクト マスク ボックス統合フレームワークを提案します。まず、初期化のためのボックスとマスクの両方の参照をサポートする統合識別モジュールが提案されており、詳細なオブジェクト情報はボックスから推測されるか、マスクから直接保持されます。さらに、正確なマルチオブジェクト ボックス予測のために新しいピンポイント ボックス予測子が提案され、ターゲット指向の表現学習を促進します。すべてのターゲット オブジェクトは、VOT と VOS の統合パイプラインとして、エンコードから伝播、デコードまで同時に処理されます。実験結果は、MITS が VOT ベンチマークと VOS ベンチマークの両方で最先端のパフォーマンスを達成することを示しています。特に、MITS は、GOT-10k テスト セットで以前の最高の VOT 競合他社を約 6% 上回り、VOS ベンチマークでのボックス初期化のパフォーマンスを大幅に向上させています。コードは https://github.com/yoxu515/MITS で入手できます。
Tracking any given object(s) spatially and temporally is a common purpose in Visual Object Tracking (VOT) and Video Object Segmentation (VOS). Joint tracking and segmentation have been attempted in some studies but they often lack full compatibility of both box and mask in initialization and prediction, and mainly focus on single-object scenarios. To address these limitations, this paper proposes a Multi-object Mask-box Integrated framework for unified Tracking and Segmentation, dubbed MITS. Firstly, the unified identification module is proposed to support both box and mask reference for initialization, where detailed object information is inferred from boxes or directly retained from masks. Additionally, a novel pinpoint box predictor is proposed for accurate multi-object box prediction, facilitating target-oriented representation learning. All target objects are processed simultaneously from encoding to propagation and decoding, as a unified pipeline for VOT and VOS. Experimental results show MITS achieves state-of-the-art performance on both VOT and VOS benchmarks. Notably, MITS surpasses the best prior VOT competitor by around 6% on the GOT-10k test set, and significantly improves the performance of box initialization on VOS benchmarks. The code is available at https://github.com/yoxu515/MITS.
updated: Thu Sep 21 2023 06:21:48 GMT+0000 (UTC)
published: Fri Aug 25 2023 09:37:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト