arXiv reaDer
1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation
ビデオインスタンスセグメンテーション(VIS)は、検出、セグメンテーション、および追跡を同時に実行するマルチタスクの問題です。画像セットアプリケーションから拡張されたビデオデータは、時間情報をさらに誘導します。これは、適切に処理された場合、オブジェクトの動きを識別および予測するのに非常に役立ちます。この作業では、これらのタスクを相互に学習するための統合モデルを設計します。具体的には、隣接するフレーム間のオブジェクトのインスタンスマスク間の時間的相関を利用するために、Temporally Correlated Instance Segmentation(TCIS)とBidirection Tracking(BiTrack)という名前の2つのモジュールを提案します。一方、ビデオデータは、フレームのオーバーラップのために冗長になることがよくあります。私たちの分析によると、この問題はYoutubeVOS-VIS2021データにとって特に深刻です。したがって、データ不足を補うためにマルチソースデータ(MSD)トレーニングメカニズムを提案します。これらの手法を一連のトリックと組み合わせることにより、ネットワークパフォーマンスはベースラインと比較して大幅に向上し、YoutubeVOS-VIS2019および2021データセットで他の方法を大幅に上回ります。
Video Instance Segmentation (VIS) is a multi-task problem performing detection, segmentation, and tracking simultaneously. Extended from image set applications, video data additionally induces the temporal information, which, if handled appropriately, is very useful to identify and predict object motions. In this work, we design a unified model to mutually learn these tasks. Specifically, we propose two modules, named Temporally Correlated Instance Segmentation (TCIS) and Bidirectional Tracking (BiTrack), to take the benefit of the temporal correlation between the object's instance masks across adjacent frames. On the other hand, video data is often redundant due to the frame's overlap. Our analysis shows that this problem is particularly severe for the YoutubeVOS-VIS2021 data. Therefore, we propose a Multi-Source Data (MSD) training mechanism to compensate for the data deficiency. By combining these techniques with a bag of tricks, the network performance is significantly boosted compared to the baseline, and outperforms other methods by a considerable margin on the YoutubeVOS-VIS 2019 and 2021 datasets.
updated: Fri Jul 09 2021 02:29:17 GMT+0000 (UTC)
published: Sat Jun 12 2021 00:20:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト