Fast Pixel-Matching for Video Object Segmentation
最初のフレームの注釈を付けて前景オブジェクトをセグメント化することを目的としたビデオオブジェクトセグメンテーションは、ますます注目を集めています。多くの最先端のアプローチは、オンラインモデル更新またはマスク伝播技術に依存することによって優れたパフォーマンスを達成しています。ただし、ほとんどのオンラインモデルでは、推論中にモデルを微調整するため、高い計算コストが必要になります。ほとんどのマスク伝播ベースのモデルは高速ですが、オブジェクトの外観の変化に適応できないため、パフォーマンスは比較的低くなります。本稿では、速度と性能のバランスが取れた新しいモデルの設計を目指しています。 NPMCA-netと呼ばれるモデルを提案します。このモデルは、参照フレームとターゲットフレームのピクセルを照合することにより、マスク伝播と非ローカル手法に基づいて前景オブジェクトを直接ローカライズします。最初のフレームと前のフレームの両方の情報を取り込むため、ネットワークは大きなオブジェクトの外観の変化に対して堅牢であり、オクルージョンによりよく適応できます。広範な実験により、私たちのアプローチは、高速で同時に新しい最先端のパフォーマンスを達成できることが示されています(DAVIS-2016では86.5%IoU、DAVIS-2017では72.2%IoU、フレームあたりの速度は0.11秒) )同じレベルの比較の下で。ソースコードはで入手できます。
Video object segmentation, aiming to segment the foreground objects given the annotation of the first frame, has been attracting increasing attentions. Many state-of-the-art approaches have achieved great performance by relying on online model updating or mask-propagation techniques. However, most online models require high computational cost due to model fine-tuning during inference. Most mask-propagation based models are faster but with relatively low performance due to failure to adapt to object appearance variation. In this paper, we are aiming to design a new model to make a good balance between speed and performance. We propose a model, called NPMCA-net, which directly localizes foreground objects based on mask-propagation and non-local technique by matching pixels in reference and target frames. Since we bring in information of both first and previous frames, our network is robust to large object appearance variation, and can better adapt to occlusions. Extensive experiments show that our approach can achieve a new state-of-the-art performance with a fast speed at the same time (86.5% IoU on DAVIS-2016 and 72.2% IoU on DAVIS-2017, with speed of 0.11s per frame) under the same level comparison. Source code is available at
