目視検査は、土木インフラの状態を評価するための主要な手法です。無人航空機 (UAV) と人工知能の最近の進歩により、目視検査がより速く、より安全で、信頼できるものになりました。カメラを装備した UAV は、人間の検査官のために大量の視覚データを収集することで、業界の新しい標準になりつつあります。一方、セマンティック セグメンテーションを含むディープ ラーニング アルゴリズムを使用した自律的な外観検査に関する重要な研究が行われています。 UAV は建物のファサードの高解像度画像をキャプチャできますが、計算メモリの要求が高いため、高解像度のセグメンテーションは非常に困難です。通常、画像は一様に縮小されますが、局所的な詳細が失われるという代償が伴います。逆に、画像を複数の小さなパッチに分割すると、グローバルなコンテキスト情報が失われる可能性があります。グローバルとローカルのセマンティクスのトレードオフを管理することにより、さまざまな検査タスクに適応できるハイブリッド戦略を提案します。このフレームワークは、アテンション ベースのセグメンテーション モデルと、最適な効率と情報保持のために設計された学習可能なダウンサンプラー アップサンプラー モジュールを備えた複合高解像度ディープ ラーニング アーキテクチャで構成されています。このフレームワークは、ダウンサイジングなしで高精度の学習を目指して、画像クロップのグリッド上でビジョン トランスフォーマーも利用します。強化された推論手法を使用して、パフォーマンスを向上させ、グリッド クロッピングによるコンテキストの損失の可能性を減らします。 Quake City データセット内の 3D 物理ベースのグラフィックス モデルの合成環境に対して、包括的な実験が行われました。提案されたフレームワークは、コンポーネントの種類、コンポーネントの損傷状態、および全体的な損傷 (亀裂、鉄筋、剥離) の 3 つのセグメンテーション タスクに関するいくつかのメトリックを使用して評価されます。
Visual inspection is the predominant technique for evaluating the condition of civil infrastructure. The recent advances in unmanned aerial vehicles (UAVs) and artificial intelligence have made the visual inspections faster, safer, and more reliable. Camera-equipped UAVs are becoming the new standard in the industry by collecting massive amounts of visual data for human inspectors. Meanwhile, there has been significant research on autonomous visual inspections using deep learning algorithms, including semantic segmentation. While UAVs can capture high-resolution images of buildings' facades, high-resolution segmentation is extremely challenging due to the high computational memory demands. Typically, images are uniformly downsized at the price of losing fine local details. Contrarily, breaking the images into multiple smaller patches can cause a loss of global contextual in-formation. We propose a hybrid strategy that can adapt to different inspections tasks by managing the global and local semantics trade-off. The framework comprises a compound, high-resolution deep learning architecture equipped with an attention-based segmentation model and learnable downsampler-upsampler modules designed for optimal efficiency and in-formation retention. The framework also utilizes vision transformers on a grid of image crops aiming for high precision learning without downsizing. An augmented inference technique is used to boost the performance and re-duce the possible loss of context due to grid cropping. Comprehensive experiments have been performed on 3D physics-based graphics models synthetic environments in the Quake City dataset. The proposed framework is evaluated using several metrics on three segmentation tasks: component type, component damage state, and global damage (crack, rebar, spalling).