セマンティック道路領域のセグメンテーションは高度なタスクであり、道路シーンの理解への道を開きます。このホワイトペーパーでは、セマンティックロードセグメンテーション用にトレーニングされた残余ネットワークについて説明します。まず、v視差マップの道路視差の投影を線形モデルとして表します。これは、動的プログラミングを使用してv視差マップを最適化することで推定できます。次に、この線形モデルを使用して、左右の道路画像の冗長情報を削減します。右の画像も左の遠近法ビューに変換され、2つの画像間の路面の類似性が大幅に向上します。最後に、処理されたステレオ画像とその視差マップが連結されて一連の3D画像が作成され、それがニューラルネットワークのトレーニングに使用されます。実験結果は、KITTI道路データセットからの画像を分析すると、ネットワークが約91.19%の最大F1測定値を達成することを示しています。
Semantic road region segmentation is a high-level task, which paves the way towards road scene understanding. This paper presents a residual network trained for semantic road segmentation. Firstly, we represent the projections of road disparities in the v-disparity map as a linear model, which can be estimated by optimizing the v-disparity map using dynamic programming. This linear model is then utilized to reduce the redundant information in the left and right road images. The right image is also transformed into the left perspective view, which greatly enhances the road surface similarity between the two images. Finally, the processed stereo images and their disparity maps are concatenated to create a set of 3D images, which are then utilized to train our neural network. The experimental results illustrate that our network achieves a maximum F1-measure of approximately 91.19% when analyzing the images from the KITTI road dataset.