この論文では、FSWC と呼ばれる病理全体スライド画像 (WSI) 分類のための少数ショット弱教師あり学習の新しい概念を紹介します。迅速な学習と大規模な言語モデル GPT-4 の利用に基づいてソリューションが提案されます。 WSI は大きすぎるため、処理するには複数のパッチに分割する必要があるため、WSI の分類は通常、複数インスタンス学習 (MIL) 問題としてアプローチされます。この文脈では、各 WSI はバッグとみなされ、取得されたパッチはインスタンスとして扱われます。 FSWC の目的は、限られた数のラベル付きバッグのみを使用してバッグとインスタンスの両方を分類することです。従来の少数ショット学習問題とは異なり、FSWC は MIL フレームワーク内の袋ラベルが弱いため、さらなる課題を引き起こします。下流の少数ショット分類タスクにおける視覚言語モデル (VL モデル) の最近の成果からインスピレーションを得て、言語の事前知識を組み込んだ、病理学に合わせた 2 レベルの即時学習 MIL フレームワークを提案します。具体的には、CLIP を活用して各パッチのインスタンス機能を抽出し、プロンプトに基づいたプール戦略を導入して、これらのインスタンス機能をバッグ機能に集約します。その後、少数のラベル付きバッグを使用して、バッグの特徴に基づいた少数ショットの即時学習を促進します。私たちのアプローチには、質疑応答モードでの GPT-4 の利用が組み込まれており、インスタンス レベルとバッグ レベルの両方で言語の事前知識を取得し、その後、インスタンス レベルとバッグ レベルの言語プロンプトに統合されます。さらに、言語プロンプトの学習可能なコンポーネントは、利用可能な数ショットのラベル付きデータを使用してトレーニングされます。私たちは、乳がん、肺がん、子宮頸がんを含む 3 つの実際の WSI データセットに対して広範な実験を実施し、バッグとインスタンスの分類における提案手法の顕著なパフォーマンスを実証しました。すべてのコードは公開されます。
This paper introduces the novel concept of few-shot weakly supervised learning for pathology Whole Slide Image (WSI) classification, denoted as FSWC. A solution is proposed based on prompt learning and the utilization of a large language model, GPT-4. Since a WSI is too large and needs to be divided into patches for processing, WSI classification is commonly approached as a Multiple Instance Learning (MIL) problem. In this context, each WSI is considered a bag, and the obtained patches are treated as instances. The objective of FSWC is to classify both bags and instances with only a limited number of labeled bags. Unlike conventional few-shot learning problems, FSWC poses additional challenges due to its weak bag labels within the MIL framework. Drawing inspiration from the recent achievements of vision-language models (V-L models) in downstream few-shot classification tasks, we propose a two-level prompt learning MIL framework tailored for pathology, incorporating language prior knowledge. Specifically, we leverage CLIP to extract instance features for each patch, and introduce a prompt-guided pooling strategy to aggregate these instance features into a bag feature. Subsequently, we employ a small number of labeled bags to facilitate few-shot prompt learning based on the bag features. Our approach incorporates the utilization of GPT-4 in a question-and-answer mode to obtain language prior knowledge at both the instance and bag levels, which are then integrated into the instance and bag level language prompts. Additionally, a learnable component of the language prompts is trained using the available few-shot labeled data. We conduct extensive experiments on three real WSI datasets encompassing breast cancer, lung cancer, and cervical cancer, demonstrating the notable performance of the proposed method in bag and instance classification. All codes will be made publicly accessible.