道路画像を使用した舗装の苦痛の自動検出は、コンピュータービジョンの研究コミュニティーでは依然として難しい課題です。ディープラーニングの最近の進展により、自動化された舗装の苦痛の識別と評価の有効性を向上させることに向けられたかなりの研究活動が行われました。ディープラーニングモデルは、大規模なグラウンドトゥルースデータセットを必要とします。これは、舗装の場合には容易に利用できないことがよくあります。この研究では、より堅牢で展開しやすい舗装状態評価システムに向けた最初のステップとして、ラベル付きデータセットアプローチが導入されています。この技法は、本明細書では、舗装画像データセット(PID)法と呼ばれる。データセットは、同一の舗装セグメントの2つのカメラビュー、つまりワイドビューとトップダウンビューからキャプチャされた画像で構成されます。ワイドビュー画像は苦痛の分類とディープラーニングフレームワークのトレーニングに使用され、トップダウンビュー画像は苦痛密度の計算を可能にしました。これは自動舗装評価を目的とした将来の研究で使用されます。広視野グループデータセットの場合、7,237枚の画像に手動で注釈を付け、苦痛を9つのカテゴリに分類しました。画像はGoogleアプリケーションプログラミングインターフェース(API)を使用して抽出され、このプロジェクト用に開発されたPythonベースのコードを使用してストリートビュー画像を選択しました。新しいデータセットは、2つの主流の深層学習フレームワークを使用して評価されました。YouOnly Look Once(YOLO v2)とFaster Region Convolution Neural Network(Faster R-CNN)です。 F1インデックスを使用した精度スコアは、YOLOv2では0.84、Faster R-CNNモデルの実行では0.65でした。 Googleマップの画像を利用することの利便性を考えると、どちらもかなり受け入れられます。
Automated pavement distresses detection using road images remains a challenging topic in the computer vision research community. Recent developments in deep learning has led to considerable research activity directed towards improving the efficacy of automated pavement distress identification and rating. Deep learning models require a large ground truth data set, which is often not readily available in the case of pavements. In this study, a labeled dataset approach is introduced as a first step towards a more robust, easy-to-deploy pavement condition assessment system. The technique is termed herein as the Pavement Image Dataset (PID) method. The dataset consists of images captured from two camera views of an identical pavement segment, i.e., a wide-view and a top-down view. The wide-view images were used to classify the distresses and to train the deep learning frameworks, while the top-down view images allowed calculation of distress density, which will be used in future studies aimed at automated pavement rating. For the wide view group dataset, 7,237 images were manually annotated and distresses classified into nine categories. Images were extracted using the Google Application Programming Interface (API), selecting street-view images using a python-based code developed for this project. The new dataset was evaluated using two mainstream deep learning frameworks: You Only Look Once (YOLO v2) and Faster Region Convolution Neural Network (Faster R-CNN). Accuracy scores using the F1 index were found to be 0.84 for YOLOv2 and 0.65 for the Faster R-CNN model runs; both quite acceptable considering the convenience of utilizing Google maps images.