arXiv reaDer
統合された認識: 最小限のアノテーション コストで効率的なビデオ パノプティック セグメンテーション
Unified Perception: Efficient Video Panoptic Segmentation with Minimal Annotation Costs
深度認識ビデオ パノプティック セグメンテーションは、カメラ ベースのシーン理解への有望なアプローチです。ただし、現在の最先端の方法は、コストのかかるビデオ アノテーションを必要とし、画像ベースの同等の方法と比較して複雑なトレーニング パイプラインを使用します。このホワイトペーパーでは、ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現する、統一された知覚というタイトルの新しいアプローチを紹介します。私たちの方法は、画像ベースのネットワークで計算されたオブジェクトの埋め込みを (再) 使用する単純な 2 段階のカスケード追跡アルゴリズムを採用しています。 Cityscapes-DVPS データセットの実験結果は、私たちの方法が 57.1 の全体的な DVPQ を達成し、最先端の方法を上回っていることを示しています。さらに、私たちの追跡戦略が KITTI-STEP での長期的なオブジェクトの関連付けに有効であることを示し、同じバックボーン ネットワークを使用する最先端の方法のパフォーマンスを超える 59.1 の STQ を達成しました。
Depth-aware video panoptic segmentation is a promising approach to camera based scene understanding. However, the current state-of-the-art methods require costly video annotations and use a complex training pipeline compared to their image-based equivalents. In this paper, we present a new approach titled Unified Perception that achieves state-of-the-art performance without requiring video-based training. Our method employs a simple two-stage cascaded tracking algorithm that (re)uses object embeddings computed in an image-based network. Experimental results on the Cityscapes-DVPS dataset demonstrate that our method achieves an overall DVPQ of 57.1, surpassing state-of-the-art methods. Furthermore, we show that our tracking strategies are effective for long-term object association on KITTI-STEP, achieving an STQ of 59.1 which exceeded the performance of state-of-the-art methods that employ the same backbone network.
updated: Fri Mar 03 2023 15:00:12 GMT+0000 (UTC)
published: Fri Mar 03 2023 15:00:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト