arXiv reaDer
エンドツーエンドのギガピクセル ディープ ラーニングのための共有メモリ アーキテクチャの探索
Exploring shared memory architectures for end-to-end gigapixel deep learning
ディープ ラーニングは、GPU のハードウェアの進歩によって可能になり、医用画像処理において大きな進歩を遂げました。新しいモデルの開発における主な制約の 1 つは、トレーニング中の GPU メモリ リソースの飽和です。これは特に、画像に 10 億以上のピクセルが含まれる計算病理学に当てはまります。これらの病理学的画像は、従来、ハードウェアの制限によりディープ ラーニングを可能にするために小さなパッチに分割されていました。この作業では、Apple, Inc. によって最近リリースされた M1 Ultra システムオンチップ (SoC) 上の共有 GPU/CPU メモリ アーキテクチャが解決策を提供できるかどうかを調べます。これらの手頃な価格のシステム (\5000 未満) は、128 GB のユニファイド メモリ (M1 Ultra SoC を搭載した Mac Studio) へのアクセスを提供します。ギガピクセル ディープ ラーニングの概念実証として、全スライド画像 (WSI) のギガピクセル領域の背景から組織を識別しました。このモデルは、大きなカーネルと高いストライドを利用する修正された U-Net (4492 パラメーター) でした。 M1 Ultra SoC は、ギガピクセル画像 (16000 × 64000 ピクセル、10 億 2400 万ピクセル) でモデルを直接トレーニングすることができました。バッチ サイズは 1 で、プロセスに 100 GB を超えるユニファイド メモリを使用し、平均速度は 1 分 21 秒でした。 Tensorflow 2/Keras を使用したバッチごと。予想通り、モデルは 0.989 ± 0.005 の高い Dice スコアで収束しました。ここまでのトレーニングには、4,940 歩、111 時間 24 分かかりました。 NVIDIA A100 のような他の高 RAM GPU (商業的に入手可能な最大サイズで 80 GB、約 \15000) はまだ広く利用可能ではありません (Amazon Web Services の一部の地域では、8 個のグループとして $40.96/時間でプレビュー中)。この研究は、一般的なネットワーク アーキテクチャを使用した WSI に基づくエンド ツー エンドの深層学習に向けた有望な一歩です。
Deep learning has made great strides in medical imaging, enabled by hardware advances in GPUs. One major constraint for the development of new models has been the saturation of GPU memory resources during training. This is especially true in computational pathology, where images regularly contain more than 1 billion pixels. These pathological images are traditionally divided into small patches to enable deep learning due to hardware limitations. In this work, we explore whether the shared GPU/CPU memory architecture on the M1 Ultra systems-on-a-chip (SoCs) recently released by Apple, Inc. may provide a solution. These affordable systems (less than \5000) provide access to 128 GB of unified memory (Mac Studio with M1 Ultra SoC). As a proof of concept for gigapixel deep learning, we identified tissue from background on gigapixel areas from whole slide images (WSIs). The model was a modified U-Net (4492 parameters) leveraging large kernels and high stride. The M1 Ultra SoC was able to train the model directly on gigapixel images (16000×64000 pixels, 1.024 billion pixels) with a batch size of 1 using over 100 GB of unified memory for the process at an average speed of 1 minute and 21 seconds per batch with Tensorflow 2/Keras. As expected, the model converged with a high Dice score of 0.989 ± 0.005. Training up until this point took 111 hours and 24 minutes over 4940 steps. Other high RAM GPUs like the NVIDIA A100 (largest commercially accessible at 80 GB, ∼\15000) are not yet widely available (in preview for select regions on Amazon Web Services at \$40.96/hour as a group of 8). This study is a promising step towards WSI-wise end-to-end deep learning with prevalent network architectures.
updated: Mon Apr 24 2023 15:00:42 GMT+0000 (UTC)
published: Mon Apr 24 2023 15:00:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト