arXiv reaDer
Vision Transformers、キャノピーの高さを高解像度で大規模にマッピングするための新しいアプローチ
Vision Transformers, a new approach for high-resolution and large-scale mapping of canopy heights
森林キャノピーの高さを正確かつタイムリーに監視することは、森林のダイナミクス、生物多様性、炭素隔離、および森林の劣化と森林破壊を評価するために重要です。深層学習技術の最近の進歩は、膨大な量の衛星搭載リモート センシング データと相まって、キャノピーの高さを高い空間的および時間的解像度でマッピングする前例のない機会を提供します。壁から壁へのキャノピーの高さマッピングの現在の技術は、LiDAR 測定を使用して、光学およびレーダー センサーからリモートで検出された 2D 情報を樹木の垂直構造に関連付けます。深層学習アルゴリズムを使用した研究では、キャノピーの高さの正確なマッピングに有望なパフォーマンスが示されていますが、採用されているアーキテクチャと損失関数のタイプによる制限があります。さらに、熱帯林の林冠の高さのマッピングはまだ十分に研究されておらず、高い林冠の正確な高さの推定は、光学およびレーダーセンサーからの信号の飽和、永続的な雲の覆い、および時には LiDAR の制限された貫通能力のために課題です。ここでは、分類 (離散) および回帰 (連続) 損失関数と同時に最適化された新しいビジョン トランスフォーマー (ViT) モデルを使用して、ガーナの多様な景観全体で 10 m の解像度で高さをマッピングします。このモデルは、連続損失関数のみで最適化された、以前に使用された畳み込みベースのアプローチ (ConvNets) よりも優れた精度を達成します。 ViT モデルの結果は、提案された離散/連続損失が非常に高い木 (つまり、> 35m) の感度を大幅に高めることを示しています。他のアプローチでは飽和効果が見られます。 ViT によって生成された高さマップは、畳み込みモデルと比較して、地面のサンプリング距離が向上し、まばらな植生に対する感度も向上します。 ViT モデルの RMSE は参照データセットと比較して 3.12m ですが、ConvNet モデルの RMSE は 4.3m です。
Accurate and timely monitoring of forest canopy heights is critical for assessing forest dynamics, biodiversity, carbon sequestration as well as forest degradation and deforestation. Recent advances in deep learning techniques, coupled with the vast amount of spaceborne remote sensing data offer an unprecedented opportunity to map canopy height at high spatial and temporal resolutions. Current techniques for wall-to-wall canopy height mapping correlate remotely sensed 2D information from optical and radar sensors to the vertical structure of trees using LiDAR measurements. While studies using deep learning algorithms have shown promising performances for the accurate mapping of canopy heights, they have limitations due to the type of architectures and loss functions employed. Moreover, mapping canopy heights over tropical forests remains poorly studied, and the accurate height estimation of tall canopies is a challenge due to signal saturation from optical and radar sensors, persistent cloud covers and sometimes the limited penetration capabilities of LiDARs. Here, we map heights at 10 m resolution across the diverse landscape of Ghana with a new vision transformer (ViT) model optimized concurrently with a classification (discrete) and a regression (continuous) loss function. This model achieves better accuracy than previously used convolutional based approaches (ConvNets) optimized with only a continuous loss function. The ViT model results show that our proposed discrete/continuous loss significantly increases the sensitivity for very tall trees (i.e., > 35m), for which other approaches show saturation effects. The height maps generated by the ViT also have better ground sampling distance and better sensitivity to sparse vegetation in comparison to a convolutional model. Our ViT model has a RMSE of 3.12m in comparison to a reference dataset while the ConvNet model has a RMSE of 4.3m.
updated: Sat Apr 22 2023 22:39:03 GMT+0000 (UTC)
published: Sat Apr 22 2023 22:39:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト