CPタスクの高密度監視を容易にするための計算病理学(CP)マルチインスタンスキャプションデータセットであるARCHを紹介します。既存のCPデータセットは、狭いタスクに焦点を合わせています。一方、ARCHには、さまざまな汚れ、組織の種類、および病状に関する詳細な診断および形態学的記述が含まれています。内在次元推定を使用して、ARCHがコンピュータービジョンアナログMS-COCOキャプションに(ARCH-)匹敵する唯一のCPデータセットであることを示します。高密度の画像キャプションで事前トレーニングされたエンコーダーは、ほとんどのCPタスクで転送可能な表現を学習すると推測されます。 ARCH表現は、ImageNetの機能や、病理画像のみの自己教師あり学習またはマルチタスク学習によって取得された表現よりも、さまざまな病理サブタスクに転送されるという証拠で、この推測を支持します。最高のモデルをリリースし、他の研究者にCPタスクでテストするよう依頼します。
We present ARCH, a computational pathology (CP) multiple instance captioning dataset to facilitate dense supervision of CP tasks. Existing CP datasets focus on narrow tasks; ARCH on the other hand contains dense diagnostic and morphological descriptions for a range of stains, tissue types and pathologies. Using intrinsic dimensionality estimation, we show that ARCH is the only CP dataset to (ARCH-)rival its computer vision analog MS-COCO Captions. We conjecture that an encoder pre-trained on dense image captions learns transferable representations for most CP tasks. We support the conjecture with evidence that ARCH representation transfers to a variety of pathology sub-tasks better than ImageNet features or representations obtained via self-supervised or multi-task learning on pathology images alone. We release our best model and invite other researchers to test it on their CP tasks.