畳み込みニューラルネットワークは、さまざまなセグメンテーションタスクの最先端です。 2D画像の場合、これらのネットワークも計算効率が高くなりますが、3D畳み込みには膨大なストレージ要件があるため、エンドツーエンドのトレーニングはGPUメモリとデータサイズによって制限されます。この問題を克服するために、3D畳み込み層のないボリュメトリックデータのネットワーク構造を導入します。主なアイデアは、異なる方向からの投影を含めて、体積データを一連の画像に変換することです。各画像には完全なデータの情報が含まれます。次に、これらの投影画像に2Dコンボリューションを適用し、トレーニング可能な再構成アルゴリズムを使用して、それらをボリュームデータに再度持ち上げます。提案されたアーキテクチャは、トリミングやスライディングウィンドウ技術を使用せずに、非常に大きなデータボリュームにエンドツーエンドで適用できます。テスト済みのスパースバイナリセグメンテーションタスクの場合、既知の標準アプローチよりも優れており、アーティファクトの生成に対する耐性が高くなっています。
Convolutional neural networks are state-of-the-art for various segmentation tasks. While for 2D images these networks are also computationally efficient, 3D convolutions have huge storage requirements and therefore, end-to-end training is limited by GPU memory and data size. To overcome this issue, we introduce a network structure for volumetric data without 3D convolution layers. The main idea is to include projections from different directions to transform the volumetric data to a sequence of images, where each image contains information of the full data. We then apply 2D convolutions to these projection images and lift them again to volumetric data using a trainable reconstruction algorithm. The proposed architecture can be applied end-to-end to very large data volumes without cropping or sliding-window techniques. For a tested sparse binary segmentation task, it outperforms already known standard approaches and is more resistant to generation of artefacts.