3Dスナップショット顕微鏡は、単一の2Dカメラ画像で3Dボリュームをキャプチャし、計算による再構成を実行することにより、高速なボリュームイメージングを可能にします。高速体積イメージングには、ゼブラフィッシュの幼生の急速な神経活動の全脳イメージングなど、さまざまな生物学的アプリケーションがあります。この光学3Dから2Dへのエンコーディングに最適な顕微鏡設計は、サンプルとタスクの両方に依存し、一般的な解決策は知られていません。深層学習ベースのデコーダーは、深層学習デコーダーと光学式エンコーダーの両方をエンドツーエンドで最適化するために、光学式エンコーダーの微分可能なシミュレーションと組み合わせることができます。この手法は、深度推定、3D粒子の位置特定、レンズレス写真などの他の問題のためにローカル光学エンコーダーを設計するために使用されています。ただし、3Dスナップショット顕微鏡法では、既存のUNetベースのデコーダーでは設計できない非常に非局所的な光学式エンコーダーが必要であることが知られています。グローバルカーネルフーリエ畳み込みニューラルネットワークに基づくニューラルネットワークアーキテクチャが、3Dスナップショット画像全体でグローバルにエンコードされたボリューム内の複数の深度からの情報を効率的にデコードできることを示します。シミュレーションでは、提案されたネットワークが、既存の最先端のUNetアーキテクチャが失敗する3Dスナップショット顕微鏡用の光学式エンコーダのエンジニアリングと再構築に成功することを示しています。また、私たちのネットワークが、高度に非局所的な光学エンコーディングを使用するプロトタイプのレンズレスカメラで収集された計算写真データセットの最先端の学習済み再構成アルゴリズムよりも優れていることも示しています。
3D snapshot microscopy enables fast volumetric imaging by capturing a 3D volume in a single 2D camera image and performing computational reconstruction. Fast volumetric imaging has a variety of biological applications such as whole brain imaging of rapid neural activity in larval zebrafish. The optimal microscope design for this optical 3D-to-2D encoding is both sample- and task-dependent, with no general solution known. Deep learning based decoders can be combined with a differentiable simulation of an optical encoder for end-to-end optimization of both the deep learning decoder and optical encoder. This technique has been used to engineer local optical encoders for other problems such as depth estimation, 3D particle localization, and lensless photography. However, 3D snapshot microscopy is known to require a highly non-local optical encoder which existing UNet-based decoders are not able to engineer. We show that a neural network architecture based on global kernel Fourier convolutional neural networks can efficiently decode information from multiple depths in a volume, globally encoded across a 3D snapshot image. We show in simulation that our proposed networks succeed in engineering and reconstructing optical encoders for 3D snapshot microscopy where the existing state-of-the-art UNet architecture fails. We also show that our networks outperform the state-of-the-art learned reconstruction algorithms for a computational photography dataset collected on a prototype lensless camera which also uses a highly non-local optical encoding.