3Dコンピューター断層撮影(CT)スキャンや病理画像などの医療画像には、数億または数十億のボクセル/ピクセルがあります。単一の画像の神経活性化が単一のGPU / TPUのメモリに収まらず、単純なデータおよびモデルの並列化アプローチが機能しないため、このような高解像度画像でCNNモデルを直接トレーニングすることは実行不可能です。既存の画像分析アプローチは、入力画像をトリミングまたはダウンサンプリングすることにより、この問題を軽減します。これにより、情報の損失により実装が複雑になり、パフォーマンスが最適化されません。このホワイトペーパーでは、空間分割を実装します。これは、畳み込み層の入力と出力をGPU / TPU間で内部的に分散します。実装はMesh-TensorFlowフレームワークに基づいており、計算分布はエンドユーザーに対して透過的です。この手法では、最大512 x 512 x 512の解像度データで3D Unetをトレーニングします。私たちの知る限り、これはこのような高解像度画像をエンドツーエンドで処理するための最初の作業です。
Medical images such as 3D computerized tomography (CT) scans and pathology images, have hundreds of millions or billions of voxels/pixels. It is infeasible to train CNN models directly on such high resolution images, because neural activations of a single image do not fit in the memory of a single GPU/TPU, and naive data and model parallelism approaches do not work. Existing image analysis approaches alleviate this problem by cropping or down-sampling input images, which leads to complicated implementation and sub-optimal performance due to information loss. In this paper, we implement spatial partitioning, which internally distributes the input and output of convolutional layers across GPUs/TPUs. Our implementation is based on the Mesh-TensorFlow framework and the computation distribution is transparent to end users. With this technique, we train a 3D Unet on up to 512 by 512 by 512 resolution data. To the best of our knowledge, this is the first work for handling such high resolution images end-to-end.