光学スペクトルおよび赤外線スペクトルの衛星画像の時系列は、雲量、雲の影、センサーの一時的な停止により頻繁にデータのギャップが発生します。失われたピクセル値を最適に再構築し、完全で雲のない画像シーケンスを取得する方法は、リモート センシング研究の長年の課題でした。私たちは表現学習の観点からこの問題にアプローチし、スペクトル強度の時空間パターンを暗黙的に捕捉できる効率的なニューラル モデルである U-TILISE を開発します。これにより、雲でマスクされた入力シーケンスをマッピングするようにトレーニングできます。雲のない出力シーケンス。このモデルは、入力シーケンスの個々のフレームを潜在エンコーディングにマッピングする畳み込み空間エンコーダーで構成されます。アテンションベースの時間エンコーダは、フレームごとのエンコーディング間の依存関係をキャプチャし、時間次元に沿って情報を交換できるようにします。そして、潜在的な埋め込みをデコードしてマルチスペクトル画像に戻す畳み込み空間デコーダーです。私たちは、ヨーロッパ全土で取得された Sentinel-2 時系列のデータセットである EarthNet2021 上で提案されたモデルを実験的に評価し、欠落ピクセルを再構築するその優れた能力を実証します。標準的な補間ベースラインと比較して、以前に確認された位置では PSNR が 1.8 dB、未確認の位置では 1.3 dB 増加します。
Satellite image time series in the optical and infrared spectrum suffer from frequent data gaps due to cloud cover, cloud shadows, and temporary sensor outages. It has been a long-standing problem of remote sensing research how to best reconstruct the missing pixel values and obtain complete, cloud-free image sequences. We approach that problem from the perspective of representation learning and develop U-TILISE, an efficient neural model that is able to implicitly capture spatio-temporal patterns of the spectral intensities, and that can therefore be trained to map a cloud-masked input sequence to a cloud-free output sequence. The model consists of a convolutional spatial encoder that maps each individual frame of the input sequence to a latent encoding; an attention-based temporal encoder that captures dependencies between those per-frame encodings and lets them exchange information along the time dimension; and a convolutional spatial decoder that decodes the latent embeddings back into multi-spectral images. We experimentally evaluate the proposed model on EarthNet2021, a dataset of Sentinel-2 time series acquired all over Europe, and demonstrate its superior ability to reconstruct the missing pixels. Compared to a standard interpolation baseline, it increases the PSNR by 1.8 dB at previously seen locations and by 1.3 dB at unseen locations.