arXiv reaDer
Streaming convolutional neural networks for end-to-end learning with multi-megapixel images
 現在のハードウェアのメモリ制約により、ほとんどの畳み込みニューラルネットワーク(CNN)はサブメガピクセルの画像でトレーニングされます。たとえば、コンピュータービジョンで最も一般的なデータセットには、1メガピクセル(ImageNetの場合は0.09MP、CIFAR-10の場合は0.001MP)をはるかに下回るサイズの画像が含まれています。医療画像などの一部のドメインでは、疾患の存在を正確に識別するためにマルチメガピクセル画像が必要です。エンドツーエンドの任意の入力画像サイズを使用して畳み込みニューラルネットワークを直接トレーニングする新しい方法を提案します。この方法は、画像の小さなタイルで前方および後方パスを実行することにより、現代の畳み込みニューラルネットワークのほとんどの操作の局所性を利用します。この作業では、最大66メガピクセル(8192x8192)の画像を使用した概念実証を示し、画像ごとに約50GBのメモリを節約します。 2つのパブリックチャレンジデータセットを使用して、CNNがこれらの大きな画像から関連情報を抽出する方法を学習し、解像度を上げることで利益を得ることができることを示します。乳癌(CAMELYON17)の転移検出のために、受信者動作特性曲線下の面積を0.580(4MP)から0.706(66MP)に改善しました。また、TUPAC16データセットの最新のパフォーマンスに近づく、スピアマン相関メトリックを0.485(1MP)から0.570(16MP)で取得しました。実験のサブセットを再現するコードは、で入手できます。
Due to memory constraints on current hardware, most convolution neural networks (CNN) are trained on sub-megapixel images. For example, most popular datasets in computer vision contain images much less than a megapixel in size (0.09MP for ImageNet and 0.001MP for CIFAR-10). In some domains such as medical imaging, multi-megapixel images are needed to identify the presence of disease accurately. We propose a novel method to directly train convolutional neural networks using any input image size end-to-end. This method exploits the locality of most operations in modern convolutional neural networks by performing the forward and backward pass on smaller tiles of the image. In this work, we show a proof of concept using images of up to 66-megapixels (8192x8192), saving approximately 50GB of memory per image. Using two public challenge datasets, we demonstrate that CNNs can learn to extract relevant information from these large images and benefit from increasing resolution. We improved the area under the receiver-operating characteristic curve from 0.580 (4MP) to 0.706 (66MP) for metastasis detection in breast cancer (CAMELYON17). We also obtained a Spearman correlation metric approaching state-of-the-art performance on the TUPAC16 dataset, from 0.485 (1MP) to 0.570 (16MP). Code to reproduce a subset of the experiments is available at
updated: Mon Nov 11 2019 18:18:22 GMT+0000 (UTC)
published: Mon Nov 11 2019 18:18:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト