arXiv reaDer
高解像度画像認識のための反復パッチ選択
Iterative Patch Selection for High-Resolution Image Recognition
高解像度画像は、自動運転やコンピューター支援診断など、さまざまなアプリケーションで普及しています。ただし、このような画像でニューラル ネットワークをトレーニングすることは計算上困難であり、最新の GPU でも簡単にメモリ不足エラーにつながります。単純な方法である反復パッチ選択(IPS)を提案します。これは、メモリ使用量を入力サイズから切り離し、ハードウェアの厳しい制約の下で任意の大きな画像の処理を可能にします。 IPS は、最も顕著なパッチのみを選択することでこれを実現し、画像認識のためにグローバルな表現に集約します。パッチの選択と集約の両方で、クロスアテンション ベースのトランスフォーマーが導入されました。これは、複数インスタンス学習との密接な関係を示しています。私たちの方法は、最小限のアクセラレータメモリを使用しながら、強力なパフォーマンスを示し、さまざまなドメイン、トレーニング体制、画像サイズにわたって幅広い適用性を備えています。たとえば、16 のバッチ サイズで 5 GB の GPU VRAM のみを使用して、最大 25 万個のパッチ (>16 ギガピクセル) で構成されるスライド全体の画像でモデルを微調整できます。
High-resolution images are prevalent in various applications, such as autonomous driving and computer-aided diagnosis. However, training neural networks on such images is computationally challenging and easily leads to out-of-memory errors even on modern GPUs. We propose a simple method, Iterative Patch Selection (IPS), which decouples the memory usage from the input size and thus enables the processing of arbitrarily large images under tight hardware constraints. IPS achieves this by selecting only the most salient patches, which are then aggregated into a global representation for image recognition. For both patch selection and aggregation, a cross-attention based transformer is introduced, which exhibits a close connection to Multiple Instance Learning. Our method demonstrates strong performance and has wide applicability across different domains, training regimes and image sizes while using minimal accelerator memory. For example, we are able to finetune our model on whole-slide images consisting of up to 250k patches (>16 gigapixels) with only 5 GB of GPU VRAM at a batch size of 16.
updated: Tue Mar 07 2023 15:56:14 GMT+0000 (UTC)
published: Mon Oct 24 2022 07:55:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト