arXiv reaDer
人間の乳がん研究を支援するための、犬の乳がんの完全に注釈が付けられた全スライド画像データセット
A completely annotated whole slide image dataset of canine breast cancer to aid human breast cancer research
犬の乳がん(CMC)は、ヒト乳がんの病因を調査するためのモデルとして使用されており、両方の腫瘍の悪性度を評価するために同じ評価スキームが一般的に使用されています。この評価スキームの重要な要素の1つは、有糸分裂像(MF)の密度です。ヒト乳がんに関する現在公開されているデータセットは、スライド画像全体(WSI)の小さなサブセットの注釈のみを提供します。 MF用に完全に注釈が付けられたCMCの21のWSIの新しいデータセットを提示します。このために、病理医はすべてのWSIをスクリーニングして、同様の外観を持つ潜在的なMFと構造を調べました。 2番目の専門家が盲目的にラベルを割り当て、一致しないラベルの場合、3番目の専門家が最終的なラベルを割り当てました。さらに、機械学習を使用して、以前は検出されなかったMFを識別しました。最後に、注釈の一貫性をさらに高めるために、表現学習と2次元投影を実行しました。私たちのデータセットは、13,907MFと36,379ハードネガで構成されています。テストセットで0.791、ヒト乳がんデータセットで最大0.696の平均F1スコアを達成しました。
Canine mammary carcinoma (CMC) has been used as a model to investigate the pathogenesis of human breast cancer and the same grading scheme is commonly used to assess tumor malignancy in both. One key component of this grading scheme is the density of mitotic figures (MF). Current publicly available datasets on human breast cancer only provide annotations for small subsets of whole slide images (WSIs). We present a novel dataset of 21 WSIs of CMC completely annotated for MF. For this, a pathologist screened all WSIs for potential MF and structures with a similar appearance. A second expert blindly assigned labels, and for non-matching labels, a third expert assigned the final labels. Additionally, we used machine learning to identify previously undetected MF. Finally, we performed representation learning and two-dimensional projection to further increase the consistency of the annotations. Our dataset consists of 13,907 MF and 36,379 hard negatives. We achieved a mean F1-score of 0.791 on the test set and of up to 0.696 on a human breast cancer dataset.
updated: Fri Nov 27 2020 11:49:32 GMT+0000 (UTC)
published: Mon Aug 24 2020 08:06:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト