ピクセルレベルで注釈が付けられた、大きくてきめの細かい画像セグメンテーションデータセットは、特に注釈にも専門知識が必要な医用画像では取得が困難です。弱教師あり学習は、落書きなどの弱い形式の注釈に依存することでモデルをトレーニングできます。ここでは、敵対的なゲームで落書き注釈を使用してセグメント化する方法を学びます。対になっていないセグメンテーションマスクを使用して、マルチスケールGANをトレーニングし、複数の解像度でリアルなセグメンテーションマスクを生成し、落書きを使用して画像内の正しい位置を学習します。モデルの成功の中心となるのは、新しい注意ゲーティングメカニズムです。これは、敵対的な信号で事前に形状として機能するように調整し、複数のスケールでのオブジェクトのローカリゼーションを向上させます。敵対的条件付けを条件として、セグメンターはセマンティックである注意マップを学習し、オブジェクトの外側のノイズの多いアクティブ化を抑制し、セグメンターのより深い層での勾配消失問題を軽減します。いくつかの医療(ACDC、LVSC、CHAOS)および非医療(PPSS)データセットでモデルを評価し、完全に注釈が付けられたセグメンテーションマスクでトレーニングされたモデルによって達成されたパフォーマンスレベルと一致するパフォーマンスレベルを報告します。また、さまざまな設定での拡張機能についても説明します。半教師あり学習。複数の落書きソースの組み合わせ(クラウドソーシングシナリオ)とマルチタスク学習(落書きとマスク監視の組み合わせ)。 https://vios-s.github.io/multiscale-adversarial-attention-gatesで、ACDCデータセットの専門家が作成した落書き注釈と実験に使用したコードをリリースします
Large, fine-grained image segmentation datasets, annotated at pixel-level, are difficult to obtain, particularly in medical imaging, where annotations also require expert knowledge. Weakly-supervised learning can train models by relying on weaker forms of annotation, such as scribbles. Here, we learn to segment using scribble annotations in an adversarial game. With unpaired segmentation masks, we train a multi-scale GAN to generate realistic segmentation masks at multiple resolutions, while we use scribbles to learn their correct position in the image. Central to the model's success is a novel attention gating mechanism, which we condition with adversarial signals to act as a shape prior, resulting in better object localization at multiple scales. Subject to adversarial conditioning, the segmentor learns attention maps that are semantic, suppress the noisy activations outside the objects, and reduce the vanishing gradient problem in the deeper layers of the segmentor. We evaluated our model on several medical (ACDC, LVSC, CHAOS) and non-medical (PPSS) datasets, and we report performance levels matching those achieved by models trained with fully annotated segmentation masks. We also demonstrate extensions in a variety of settings: semi-supervised learning; combining multiple scribble sources (a crowdsourcing scenario) and multi-task learning (combining scribble and mask supervision). We release expert-made scribble annotations for the ACDC dataset, and the code used for the experiments, at https://vios-s.github.io/multiscale-adversarial-attention-gates