ハイパースペクトル イメージング (HSI) の技術は、長距離分布スペクトル波長で視覚情報を記録します。代表的なハイパースペクトル画像取得手順は、コード化された開口スナップショット スペクトル イメージャー (CASSI) によって 3D から 2D へのエンコードを行い、3D 信号再構成用のソフトウェア デコーダーを必要とします。この物理的なエンコード手順を観察することにより、忠実度の高い再構築の妨げになる 2 つの大きな課題があります。 (i) 2D 測定値を取得するために、CASSI は複数のチャネルをディスパーザー タイトルで移動させ、それらを同じ空間領域に絞り込み、絡み合ったデータ損失をもたらします。 (ii) 物理的なコード化されたアパーチャは、ピクセル単位の露光を選択的にブロックすることにより、マスクされたデータの損失につながります。これらの課題に取り組むために、マスク認識学習戦略を使用した空間スペクトル (S^2-) Transformer ネットワークを提案します。まず、空間とスペクトルのアテンション モデリングを同時に活用して、2D 測定で混合された情報を 2 つの次元の両方に沿って解きほぐします。一連の Transformer 構造は、ハイパースペクトル データの空間およびスペクトル情報プロパティを完全に調査するために体系的に設計されています。第 2 に、マスクされたピクセルは予測の難易度が高くなるため、マスクされていないピクセルとは異なる方法で処理する必要があります。これにより、マスクエンコードされた予測でピクセル単位の再構成の難しさを推測することにより、マスク構造に起因する損失ペナルティを適応的に優先します。提案された学習戦略のマスクされた/マスクされていない領域間の明確な収束傾向について理論的に説明します。広範な実験により、提案された方法が優れた再構成性能を達成することが実証されています。さらに、提案されたアーキテクチャの下での空間的およびスペクトル的注意の動作を経験的に詳しく説明し、マスク認識学習の影響を包括的に調べます。
The technology of hyperspectral imaging (HSI) records the visual information upon long-range-distributed spectral wavelengths. A representative hyperspectral image acquisition procedure conducts a 3D-to-2D encoding by the coded aperture snapshot spectral imager (CASSI) and requires a software decoder for the 3D signal reconstruction. By observing this physical encoding procedure, two major challenges stand in the way of a high-fidelity reconstruction. (i) To obtain 2D measurements, CASSI dislocates multiple channels by disperser-titling and squeezes them onto the same spatial region, yielding an entangled data loss. (ii) The physical coded aperture leads to a masked data loss by selectively blocking the pixel-wise light exposure. To tackle these challenges, we propose a spatial-spectral (S^2-) Transformer network with a mask-aware learning strategy. First, we simultaneously leverage spatial and spectral attention modeling to disentangle the blended information in the 2D measurement along both two dimensions. A series of Transformer structures are systematically designed to fully investigate the spatial and spectral informative properties of the hyperspectral data. Second, the masked pixels will induce higher prediction difficulty and should be treated differently from unmasked ones. Thereby, we adaptively prioritize the loss penalty attributing to the mask structure by inferring the pixel-wise reconstruction difficulty upon the mask-encoded prediction. We theoretically discusses the distinct convergence tendencies between masked/unmasked regions of the proposed learning strategy. Extensive experiments demonstrates that the proposed method achieves superior reconstruction performance. Additionally, we empirically elaborate the behaviour of spatial and spectral attentions under the proposed architecture, and comprehensively examine the impact of the mask-aware learning.