arXiv reaDer
CSformer:圧縮センシングのためのブリッジングコンボリューションとトランス
CSformer: Bridging Convolution and Transformer for Compressive Sensing
畳み込みニューラルネットワーク(CNN)は、圧縮画像センシングに成功しました。ただし、局所性と重みの共有の誘導バイアスにより、畳み込み演算は、長距離依存性のモデル化に固有の制限を示しています。当初はシーケンス間モデルとして設計されたTransformerは、ローカリゼーション機能が制限されている場合でも、自己注意ベースのアーキテクチャにより、グローバルコンテキストのキャプチャに優れています。このホワイトペーパーでは、CNNからの詳細な空間情報と、トランスフォーマーによって提供されるグローバルコンテキストの両方を活用して表現学習を強化するという利点を統合したハイブリッドフレームワークであるCSformerを提案します。提案されたアプローチは、適応サンプリングと回復で構成されるエンドツーエンドの圧縮画像検知方法です。サンプリングモジュールでは、画像は学習したサンプリング行列によってブロックごとに測定されます。再構成段階では、測定値はデュアルステムに投影されます。 1つは畳み込みによって近隣関係をモデル化するためのCNNステムであり、もう1つはグローバルな自己注意メカニズムを採用するためのトランスフォーマーステムです。デュアルブランチ構造は同時であり、ローカル機能とグローバル表現は、機能の補完性を最大化するために異なる解像度で融合されます。さらに、パラメーターと計算の複雑さを軽減するために、プログレッシブ戦略とウィンドウベースのトランスフォーマーブロックを検討します。実験結果は、圧縮センシング専用のトランスベースのアーキテクチャの有効性を示しています。これは、さまざまなデータセットでの最先端の方法と比較して優れたパフォーマンスを実現します。
Convolution neural networks (CNNs) have succeeded in compressive image sensing. However, due to the inductive bias of locality and weight sharing, the convolution operations demonstrate the intrinsic limitations in modeling the long-range dependency. Transformer, designed initially as a sequence-to-sequence model, excels at capturing global contexts due to the self-attention-based architectures even though it may be equipped with limited localization abilities. This paper proposes CSformer, a hybrid framework that integrates the advantages of leveraging both detailed spatial information from CNN and the global context provided by transformer for enhanced representation learning. The proposed approach is an end-to-end compressive image sensing method, composed of adaptive sampling and recovery. In the sampling module, images are measured block-by-block by the learned sampling matrix. In the reconstruction stage, the measurement is projected into dual stems. One is the CNN stem for modeling the neighborhood relationships by convolution, and the other is the transformer stem for adopting global self-attention mechanism. The dual branches structure is concurrent, and the local features and global representations are fused under different resolutions to maximize the complementary of features. Furthermore, we explore a progressive strategy and window-based transformer block to reduce the parameter and computational complexity. The experimental results demonstrate the effectiveness of the dedicated transformer-based architecture for compressive sensing, which achieves superior performance compared to state-of-the-art methods on different datasets.
updated: Fri Dec 31 2021 04:37:11 GMT+0000 (UTC)
published: Fri Dec 31 2021 04:37:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト