既存の道路のくぼみ検出アプローチは、コンピュータービジョンベースまたは機械学習ベースに分類できます。前者のアプローチは、通常、2D画像分析/理解または3D点群モデリングおよびセグメンテーションアルゴリズムを使用して、ビジョンセンサーデータから道路の穴を検出します。後者のアプローチは、一般に、畳み込みニューラルネットワーク(CNN)をエンドツーエンドで使用して道路のくぼみの検出に対処します。ただし、道路のくぼみは必ずしも遍在しているわけではなく、CNNトレーニング用に注釈の付いた大規模なデータセットを準備することは困難です。この点で、コンピュータービジョンベースの方法は過去10年間の主流の研究トレンドでしたが、機械学習ベースの方法は単に議論されただけです。最近、最初のステレオビジョンベースの道路のくぼみ検出データセットと新しい視差変換アルゴリズムを公開しました。これにより、損傷した道路領域と損傷していない道路領域を高度に区別できます。ただし、視差画像または変換された視差画像のいずれかを使用してトレーニングされた最先端(SoTA)CNNで現在利用可能なベンチマークはありません。したがって、このペーパーでは、最初にセマンティックセグメンテーション用に設計されたSoTA CNNについて説明し、広範な実験を使用して道路のくぼみ検出のパフォーマンスを評価します。さらに、グラフニューラルネットワーク(GNN)に触発されて、グラフアテンションレイヤー(GAL)と呼ばれる新しいCNNレイヤーを提案します。これは、既存のCNNに簡単に展開して、セマンティックセグメンテーションの画像特徴表現を最適化できます。私たちの実験では、最高のパフォーマンスを発揮する実装であるGAL-DeepLabv3 +を、トレーニングデータの3つのモダリティ(RGB画像、視差画像、変換された視差画像)で9つのSoTACNNと比較します。実験結果は、提案されたGAL-DeepLabv3 +が、すべてのトレーニングデータモダリティで最高の全体的なポットホール検出精度を達成することを示唆しています。
Existing road pothole detection approaches can be classified as computer vision-based or machine learning-based. The former approaches typically employ 2-D image analysis/understanding or 3-D point cloud modeling and segmentation algorithms to detect road potholes from vision sensor data. The latter approaches generally address road pothole detection using convolutional neural networks (CNNs) in an end-to-end manner. However, road potholes are not necessarily ubiquitous and it is challenging to prepare a large well-annotated dataset for CNN training. In this regard, while computer vision-based methods were the mainstream research trend in the past decade, machine learning-based methods were merely discussed. Recently, we published the first stereo vision-based road pothole detection dataset and a novel disparity transformation algorithm, whereby the damaged and undamaged road areas can be highly distinguished. However, there are no benchmarks currently available for state-of-the-art (SoTA) CNNs trained using either disparity images or transformed disparity images. Therefore, in this paper, we first discuss the SoTA CNNs designed for semantic segmentation and evaluate their performance for road pothole detection with extensive experiments. Additionally, inspired by graph neural network (GNN), we propose a novel CNN layer, referred to as graph attention layer (GAL), which can be easily deployed in any existing CNN to optimize image feature representations for semantic segmentation. Our experiments compare GAL-DeepLabv3+, our best-performing implementation, with nine SoTA CNNs on three modalities of training data: RGB images, disparity images, and transformed disparity images. The experimental results suggest that our proposed GAL-DeepLabv3+ achieves the best overall pothole detection accuracy on all training data modalities.