タスクを2つのサブタスクに分割することにより、ビデオオブジェクトセグメンテーション(VOS)にアプローチします。バウンディングボックスレベルの追跡と、それに続くバウンディングボックスセグメンテーションです。このパラダイムに従って、BoLTVOS(VOSのボックスレベルトラッキング)を提示します。これは、対象のオブジェクトを検出するために最初のフレームの境界ボックスで条件付けられたR-CNN検出器、時間的整合性リスコアリングアルゴリズム、および境界ボックスをセグメンテーションマスクに変換します。 BoLTVOSは、マスクなしの最初のフレーム境界ボックスのみを使用してVOSを実行します。 DAVIS 2017とYouTube-VOSでアプローチを評価し、最初のフレームの微調整を実行しないすべての方法よりも優れていることを示します。 BoLTVOS-ftをさらに提示します。これは、実行時間を増やすことなく、追跡中に最初のフレームマスクを使用して問題のオブジェクトをセグメント化することを学習します。 BoLTVOS-ftは、DAVIS 2016およびYouTube-VOSで以前に最高のパフォーマンスを実現したVOSメソッドであるPReMVOSよりも優れていますが、最大45倍高速に動作します。バウンディングボックストラッカーは、バウンディングボックスレベルのトラッキングデータセットOTB 2015およびLTB35で、以前のすべての短期および長期トラッカーよりも優れています。この作品の新しいバージョンは、arXiv:1911.12836にあります。
We approach video object segmentation (VOS) by splitting the task into two sub-tasks: bounding box level tracking, followed by bounding box segmentation. Following this paradigm, we present BoLTVOS (Box-Level Tracking for VOS), which consists of an R-CNN detector conditioned on the first-frame bounding box to detect the object of interest, a temporal consistency rescoring algorithm, and a Box2Seg network that converts bounding boxes to segmentation masks. BoLTVOS performs VOS using only the firstframe bounding box without the mask. We evaluate our approach on DAVIS 2017 and YouTube-VOS, and show that it outperforms all methods that do not perform first-frame fine-tuning. We further present BoLTVOS-ft, which learns to segment the object in question using the first-frame mask while it is being tracked, without increasing the runtime. BoLTVOS-ft outperforms PReMVOS, the previously best performing VOS method on DAVIS 2016 and YouTube-VOS, while running up to 45 times faster. Our bounding box tracker also outperforms all previous short-term and longterm trackers on the bounding box level tracking datasets OTB 2015 and LTB35. A newer version of this work can be found at arXiv:1911.12836.