arXiv reaDer
VISOLO:効率的なオンラインビデオインスタンスセグメンテーションのためのグリッドベースの時空間集約
VISOLO: Grid-Based Space-Time Aggregation for Efficient Online Video Instance Segmentation
オンラインビデオインスタンスセグメンテーション(VIS)の場合、リアルタイムアプリケーションでは、前のフレームの情報を効率的に十分に活用することが不可欠です。以前のほとんどの方法は、RPNやRoIAlignなどの追加の計算を必要とする2段階のアプローチに従い、VISのすべてのサブタスクでビデオで利用可能な情報を十分に活用していません。この論文では、グリッド構造化された特徴表現に基づいて構築されたオンラインVISのための新しいシングルステージフレームワークを提案します。グリッドベースの機能により、リアルタイム処理に完全畳み込みネットワークを採用し、さまざまなコンポーネント内で機能を簡単に再利用および共有することができます。また、VISのすべてのサブタスクの機能を強化するために、使用可能なフレームから情報を集約する協調動作モジュールを紹介します。私たちの設計は、VISのすべてのタスクについてグリッド形式の以前の情報を効率的な方法で完全に活用し、YouTubeで新しい最先端の精度(38.6APおよび36.9AP)と速度(40.0 FPS)を達成しました。 -オンラインVISメソッドの中でVIS2019および2021データセット。
For online video instance segmentation (VIS), fully utilizing the information from previous frames in an efficient manner is essential for real-time applications. Most previous methods follow a two-stage approach requiring additional computations such as RPN and RoIAlign, and do not fully exploit the available information in the video for all subtasks in VIS. In this paper, we propose a novel single-stage framework for online VIS built based on the grid structured feature representation. The grid-based features allow us to employ fully convolutional networks for real-time processing, and also to easily reuse and share features within different components. We also introduce cooperatively operating modules that aggregate information from available frames, in order to enrich the features for all subtasks in VIS. Our design fully takes advantage of previous information in a grid form for all tasks in VIS in an efficient way, and we achieved the new state-of-the-art accuracy (38.6 AP and 36.9 AP) and speed (40.0 FPS) on YouTube-VIS 2019 and 2021 datasets among online VIS methods.
updated: Wed Dec 08 2021 08:57:02 GMT+0000 (UTC)
published: Wed Dec 08 2021 08:57:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト