この論文では、時間的一貫性とピクセル単位の正確さの両方をキャプチャできる、ビデオセマンティックセグメンテーションに関する新しい知覚的一貫性の視点を提示します。近くに2つのビデオフレームがある場合、知覚の一貫性は、セグメンテーションの決定が、一般的な知覚の特徴を一致させることによって得られるピクセルの対応とどの程度一致するかを測定します。より具体的には、一方のフレームの各ピクセルについて、もう一方のフレームで最も知覚的に相関するピクセルを見つけます。私たちの直感では、このようなピクセルのペアは同じクラスに属する可能性が非常に高いです。次に、セグメンテーションがそのような知覚的対応とどの程度一致するかを評価します。これに基づいて、これら2つのフレームにわたるセグメンテーションマップの知覚的一貫性を導き出します。知覚の一貫性を利用して、ビデオ内のセグメンテーションマップの連続するペアの知覚の一貫性を測定することにより、ビデオのセグメンテーションの時間的一貫性を評価できます。さらに、まばらにラベル付けされたテストビデオが与えられた場合、知覚の一貫性を利用して、ラベル付けされていないフレームでのセグメンテーションのピクセル単位の正確さを予測するのに役立てることができます。より具体的には、予測されたセグメンテーションと近くのフレームで利用可能なグラウンドトゥルースとの間の知覚の一貫性を測定し、それをセグメンテーションの信頼度と組み合わせることにより、各ピクセルの分類の正確さを正確に評価できます。私たちの実験は、提案された知覚の一貫性が、フローベースの測定と比較して、ビデオセグメンテーションの時間的一貫性をより正確に評価できることを示しています。さらに、分類の信頼性のみを使用する場合と比較して、ラベルのないテストフレームでのセグメンテーションの精度をより確実に予測するのに役立ちます。最後に、提案された測定値は、セグメンテーションモデルのトレーニング中に正則化として使用できます。これにより、精度を維持しながら、より時間的に一貫したビデオセグメンテーションが実現します。
In this paper, we present a novel perceptual consistency perspective on video semantic segmentation, which can capture both temporal consistency and pixel-wise correctness. Given two nearby video frames, perceptual consistency measures how much the segmentation decisions agree with the pixel correspondences obtained via matching general perceptual features. More specifically, for each pixel in one frame, we find the most perceptually correlated pixel in the other frame. Our intuition is that such a pair of pixels are highly likely to belong to the same class. Next, we assess how much the segmentation agrees with such perceptual correspondences, based on which we derive the perceptual consistency of the segmentation maps across these two frames. Utilizing perceptual consistency, we can evaluate the temporal consistency of video segmentation by measuring the perceptual consistency over consecutive pairs of segmentation maps in a video. Furthermore, given a sparsely labeled test video, perceptual consistency can be utilized to aid with predicting the pixel-wise correctness of the segmentation on an unlabeled frame. More specifically, by measuring the perceptual consistency between the predicted segmentation and the available ground truth on a nearby frame and combining it with the segmentation confidence, we can accurately assess the classification correctness on each pixel. Our experiments show that the proposed perceptual consistency can more accurately evaluate the temporal consistency of video segmentation as compared to flow-based measures. Furthermore, it can help more confidently predict segmentation accuracy on unlabeled test frames, as compared to using classification confidence alone. Finally, our proposed measure can be used as a regularizer during the training of segmentation models, which leads to more temporally consistent video segmentation while maintaining accuracy.