多くの場合、大規模なデータを使用して事前トレーニングされた基盤モデルは、さまざまな視覚および言語アプリケーションを活性化する上で大きな成功を収めています。最近の進歩により、コンテキスト内学習など、少数のトレーニング サンプルのみを使用して、下流タスクで基礎モデルを効率的に適応させることがさらに可能になりました。しかし、公的にアクセス可能なデータやベンチマークが不足しているため、医用画像解析におけるこのような学習パラダイムの適用は依然として稀です。この論文では、基礎モデルを医用画像分類に適応させるアプローチを目指し、評価のための新しいデータセットとベンチマークを提示します。つまり、さまざまな現実世界のセット上で下流にある大規模な基礎モデルに対応する全体的なパフォーマンスを調べることです。臨床業務。 X線による胸部疾患スクリーニング、病理学的病変組織スクリーニング、内視鏡画像による病変検出、新生児黄疸など、現実世界のさまざまな臨床タスクを対象とした5つの医療画像データを複数の機関から収集しています(合計22,349画像)。評価、および糖尿病性網膜症の等級付け。複数のベースライン手法の結果は、提案されたデータセットを使用して精度と費用対効果の両方の観点から実証されます。
Foundation models, often pre-trained with large-scale data, have achieved paramount success in jump-starting various vision and language applications. Recent advances further enable adapting foundation models in downstream tasks efficiently using only a few training samples, e.g., in-context learning. Yet, the application of such learning paradigms in medical image analysis remains scarce due to the shortage of publicly accessible data and benchmarks. In this paper, we aim at approaches adapting the foundation models for medical image classification and present a novel dataset and benchmark for the evaluation, i.e., examining the overall performance of accommodating the large-scale foundation models downstream on a set of diverse real-world clinical tasks. We collect five sets of medical imaging data from multiple institutes targeting a variety of real-world clinical tasks (22,349 images in total), i.e., thoracic diseases screening in X-rays, pathological lesion tissue screening, lesion detection in endoscopy images, neonatal jaundice evaluation, and diabetic retinopathy grading. Results of multiple baseline methods are demonstrated using the proposed dataset from both accuracy and cost-effective perspectives.