スライド画像全体 (WSI) 分類は、多くの場合、複数インスタンス学習 (MIL) 問題として定式化されます。陽性組織はギガピクセル WSI のほんの一部にすぎないため、既存の MIL 手法は、注意メカニズムを介して顕著なインスタンスを識別することに直感的に焦点を当てています。ただし、これにより、分類しやすいインスタンスに偏り、分類しにくいインスタンスが無視されることになります。いくつかの文献では、識別境界を正確にモデル化するにはハード サンプルが有益であることが明らかにされています。このようなアイデアをインスタンス レベルで適用することで、マスクされたハード インスタンス マイニング (MHIM-MIL) を備えた新しい MIL フレームワークを精緻化しました。これは、潜在的なハード インスタンスを探索するために一貫性制約を持つシャム構造 (教師-生徒) を使用します。アテンション スコアに基づくいくつかのインスタンス マスキング戦略を使用して、MHIM-MIL はモメンタム ティーチャーを採用して、学生モデル (アテンション ベースの MIL モデルであれば何でもよい) をトレーニングするためのハード インスタンスを暗黙的にマイニングします。この直感に反する戦略により、本質的に、生徒はより優れた識別境界を学ぶことができます。さらに、生徒は指数移動平均 (EMA) で教師を更新するために使用されます。これにより、後続のトレーニング反復のための新しいハード インスタンスが特定され、最適化が安定します。 CAMELYON-16 および TCGA 肺がんデータセットの実験結果は、MHIM-MIL がパフォーマンスとトレーニング コストの点で他の最新の手法よりも優れていることを示しています。コードは https://github.com/DearCaat/MHIM-MIL から入手できます。
The whole slide image (WSI) classification is often formulated as a multiple instance learning (MIL) problem. Since the positive tissue is only a small fraction of the gigapixel WSI, existing MIL methods intuitively focus on identifying salient instances via attention mechanisms. However, this leads to a bias towards easy-to-classify instances while neglecting hard-to-classify instances. Some literature has revealed that hard examples are beneficial for modeling a discriminative boundary accurately. By applying such an idea at the instance level, we elaborate a novel MIL framework with masked hard instance mining (MHIM-MIL), which uses a Siamese structure (Teacher-Student) with a consistency constraint to explore the potential hard instances. With several instance masking strategies based on attention scores, MHIM-MIL employs a momentum teacher to implicitly mine hard instances for training the student model, which can be any attention-based MIL model. This counter-intuitive strategy essentially enables the student to learn a better discriminating boundary. Moreover, the student is used to update the teacher with an exponential moving average (EMA), which in turn identifies new hard instances for subsequent training iterations and stabilizes the optimization. Experimental results on the CAMELYON-16 and TCGA Lung Cancer datasets demonstrate that MHIM-MIL outperforms other latest methods in terms of performance and training cost. The code is available at: https://github.com/DearCaat/MHIM-MIL.