医用画像分類の深層学習は、3つの大きな課題に直面しています。1)トレーニング用の注釈付き医用画像の数は通常少ないです。 2)関心領域(ROI)は、医療画像全体の境界が不明瞭な比較的小さく、x、y(および3D画像のz)次元の任意の位置に表示される場合があります。ただし、多くの場合、画像全体のラベルのみに注釈が付けられ、ローカライズされたROIは使用できません。 3)医療画像のROIは、さまざまなサイズ(スケール)で表示されることがよくあります。マルチインスタンスマルチスケール(MIMS)CNNを使用して、これら3つの課題に取り組みます。1)スケール不変パターンを共有する畳み込みカーネルのセットを使用して、異なる受容フィールドのパターンを抽出するマルチスケール畳み込み層を提案します。このコンパクトなカーネルセットによってキャプチャされます。このレイヤーには少数のパラメーターしか含まれていないため、小さなデータセットのトレーニングが可能になります。 2)複数の空間次元からさまざまなスケールで機能マップを集約する「トップkプーリング」を提案し、複数インスタンス学習(MIL)フレームワーク内で弱い注釈を使用してモデルをトレーニングできるようにします。私たちの方法は、2つの3Dおよび2つの2D医用画像データセットを含む3つの分類タスクでうまく機能することが示されています。
Deep learning for medical image classification faces three major challenges: 1) the number of annotated medical images for training are usually small; 2) regions of interest (ROIs) are relatively small with unclear boundaries in the whole medical images, and may appear in arbitrary positions across the x,y (and also z in 3D images) dimensions. However often only labels of the whole images are annotated, and localized ROIs are unavailable; and 3) ROIs in medical images often appear in varying sizes (scales). We approach these three challenges with a Multi-Instance Multi-Scale (MIMS) CNN: 1) We propose a multi-scale convolutional layer, which extracts patterns of different receptive fields with a shared set of convolutional kernels, so that scale-invariant patterns are captured by this compact set of kernels. As this layer contains only a small number of parameters, training on small datasets becomes feasible; 2) We propose a "top-k pooling" to aggregate the feature maps in varying scales from multiple spatial dimensions, allowing the model to be trained using weak annotations within the multiple instance learning (MIL) framework. Our method is shown to perform well on three classification tasks involving two 3D and two 2D medical image datasets.