この作業では、リアルタイムの半教師ありビデオオブジェクトセグメンテーション(ワンショットVOS)用のSwiftNetを紹介します。これは、DAVIS 2017検証データセットで77.8%のJ&Fと70 FPSを報告し、全体的な精度と速度パフォーマンスで現在のすべてのソリューションをリードします。これは、Pixel-Adaptive Memory(PAM)を介してマッチングベースのVOSの時空間冗長性を入念に圧縮することで実現します。一時的に、PAMは、オブジェクトが注目に値するフレーム間変動を表示するフレームでメモリ更新を適応的にトリガーします。空間的に、PAMは静的ピクセルを無視しながら動的ピクセルでメモリの更新と照合を選択的に実行し、セグメンテーションに関係のないピクセルで無駄になる冗長な計算を大幅に削減します。効率的な参照エンコーディングを促進するために、光集約エンコーダーもSwiftNetに導入され、逆サブピクセルを展開します。 SwiftNetがリアルタイムVOSの強力で効率的なベースラインを設定し、モバイルビジョンでのアプリケーションを容易にすることを願っています。
In this work we present SwiftNet for real-time semi-supervised video object segmentation (one-shot VOS), which reports 77.8% J&F and 70 FPS on DAVIS 2017 validation dataset, leading all present solutions in overall accuracy and speed performance. We achieve this by elaborately compressing spatiotemporal redundancy in matching-based VOS via Pixel-Adaptive Memory (PAM). Temporally, PAM adaptively triggers memory updates on frames where objects display noteworthy inter-frame variations. Spatially, PAM selectively performs memory update and match on dynamic pixels while ignoring the static ones, significantly reducing redundant computations wasted on segmentation-irrelevant pixels. To promote efficient reference encoding, light-aggregation encoder is also introduced in SwiftNet deploying reversed sub-pixel. We hope SwiftNet could set a strong and efficient baseline for real-time VOS and facilitate its application in mobile vision.