セマンティックセグメンテーションは、画像の領域全体のコヒーレントクラスラベルを確実に予測することを目的としています。これは、実際のアプリケーション(自律ナビゲーションなど)を強化するシーン理解タスクです。重要なアプリケーションの1つである、歩行者環境の自動化されたセマンティック理解のための画像の使用は、ストリート環境でのアクセシビリティ機能のリモートマッピングを提供します。このアプリケーション(およびその他のアプリケーション)には、地理オブジェクトの詳細な幾何学的情報が必要です。セマンティックセグメンテーションは、単一のエンティティと同じクラスの連続した領域をマップするため、このタスクの前提条件です。重要なのは、私たちのようなセマンティックセグメンテーションの使用はピクセル単位の結果ではないということです。ただし、それらの定量的評価指標のほとんど(たとえば、平均交差点オーバーユニオン)は、セグメンテーションモデルのセグメンテーションの過不足の特性を強調できないグラウンドトゥルースとのピクセル単位の類似性に基づいています。ここでは、地域ベースのオーバーセグメンテーションとアンダーセグメンテーションを評価するための新しいメトリックを紹介します。これを分析して他のメトリックと比較し、メトリックを使用すると、実際のアプリケーションでのセマンティックセグメンテーションモデルのパフォーマンスの説明性が向上することを示します。
Semantic segmentation aims to robustly predict coherent class labels for entire regions of an image. It is a scene understanding task that powers real-world applications (e.g., autonomous navigation). One important application, the use of imagery for automated semantic understanding of pedestrian environments, provides remote mapping of accessibility features in street environments. This application (and others like it) require detailed geometric information of geographical objects. Semantic segmentation is a prerequisite for this task since it maps contiguous regions of the same class as single entities. Importantly, semantic segmentation uses like ours are not pixel-wise outcomes; however, most of their quantitative evaluation metrics (e.g., mean Intersection Over Union) are based on pixel-wise similarities to a ground-truth, which fails to emphasize over- and under-segmentation properties of a segmentation model. Here, we introduce a new metric to assess region-based over- and under-segmentation. We analyze and compare it to other metrics, demonstrating that the use of our metric lends greater explainability to semantic segmentation model performance in real-world applications.