このホワイト ペーパーでは、ビデオ インスタンス セグメンテーション (VIS) のためのオフラインからオンラインへの知識蒸留 (OOKD) を紹介します。これは、一貫した予測のために、豊富なビデオ知識をオフライン モデルからオンライン モデルに転送します。オンライン モデルまたはオフライン モデルのいずれかを採用していた以前の方法とは異なり、当社の単一のオンライン モデルは、オフラインの知識を抽出することで両方のモデルを活用します。知識を正しく伝達するために、無関係なクエリを正確なインスタンスにフィルタリングするクエリのフィルタリングと関連付け (QFA) を提案します。 QFA を使用した KD は、長距離のグローバル情報によって補完された単一のフレームからオブジェクト中心の特徴をエンコードすることにより、特徴マッチングの堅牢性を高めます。また、すべてのクラスの知識をオンライン モデルに公平に転送する、VIS タスクでの知識の蒸留のための単純なデータ拡張スキームも提案します。広範な実験により、特に長い動的シーケンスを含む困難なデータセットの場合、ビデオインスタンスのセグメンテーションのパフォーマンスが大幅に向上することが示されています。また、私たちの方法は、YTVIS-21、YTVIS-22、および OVIS データセットで最先端のパフォーマンスを達成し、mAP スコアはそれぞれ 46.1%、43.6%、および 31.1% です。
In this paper, we present offline-to-online knowledge distillation (OOKD) for video instance segmentation (VIS), which transfers a wealth of video knowledge from an offline model to an online model for consistent prediction. Unlike previous methods that having adopting either an online or offline model, our single online model takes advantage of both models by distilling offline knowledge. To transfer knowledge correctly, we propose query filtering and association (QFA), which filters irrelevant queries to exact instances. Our KD with QFA increases the robustness of feature matching by encoding object-centric features from a single frame supplemented by long-range global information. We also propose a simple data augmentation scheme for knowledge distillation in the VIS task that fairly transfers the knowledge of all classes into the online model. Extensive experiments show that our method significantly improves the performance in video instance segmentation, especially for challenging datasets including long, dynamic sequences. Our method also achieves state-of-the-art performance on YTVIS-21, YTVIS-22, and OVIS datasets, with mAP scores of 46.1%, 43.6%, and 31.1%, respectively.