arXiv reaDer
GSVNet:ビデオでの高速セマンティックセグメンテーションのためのガイド付き空間変動畳み込み
GSVNet: Guided Spatially-Varying Convolution for Fast Semantic Segmentation on Video
このホワイトペーパーでは、ビデオの高速セマンティックセグメンテーションについて説明します。ビデオセグメンテーションでは、多くの場合、リアルタイム、またはリアルタイムよりも高速な処理が必要になります。特徴抽出から生じる計算を節約するための一般的なレシピの1つは、選択したいくつかのキーフレームの特徴を伝播することです。ただし、高速画像セグメンテーションの最近の進歩により、これらのソリューションの魅力は低下しています。高速画像セグメンテーションを活用してビデオセグメンテーションを促進するために、シンプルでありながら効率的な伝搬フレームワークを提案します。具体的には、セグメンテーションアウトペース空間での時間的ワーピングのために、1/8に縮小された画像空間で軽量フロー推定を実行します。さらに、前のフレームと現在のフレームから派生したセグメンテーションを融合するためのガイド付きの空間的に変化する畳み込みを導入して、伝搬エラーを軽減し、非キーフレームでの軽量の特徴抽出を可能にします。 CityscapesとCamVidの実験結果は、私たちのスキームがビデオセグメンテーションで最先端の精度とスループットのトレードオフを達成することを示しています。
This paper addresses fast semantic segmentation on video.Video segmentation often calls for real-time, or even fasterthan real-time, processing. One common recipe for conserving computation arising from feature extraction is to propagate features of few selected keyframes. However, recent advances in fast image segmentation make these solutions less attractive. To leverage fast image segmentation for furthering video segmentation, we propose a simple yet efficient propagation framework. Specifically, we perform lightweight flow estimation in 1/8-downscaled image space for temporal warping in segmentation outpace space. Moreover, we introduce a guided spatially-varying convolution for fusing segmentations derived from the previous and current frames, to mitigate propagation error and enable lightweight feature extraction on non-keyframes. Experimental results on Cityscapes and CamVid show that our scheme achieves the state-of-the-art accuracy-throughput trade-off on video segmentation.
updated: Tue Jun 08 2021 02:02:18 GMT+0000 (UTC)
published: Tue Mar 16 2021 03:38:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト