arXiv reaDer
BRACS:H&E組織像におけるBReAst癌サブタイピングのデータセット
BRACS: A Dataset for BReAst Carcinoma Subtyping in H&E Histology Images
乳がんは最も一般的に診断されるがんであり、がんの女性の死亡数が最も多いです。大規模なスクリーニング方針と組み合わされた診断活動の最近の進歩は、乳がん患者の死亡率を大幅に低下させました。ただし、病理学者による組織スライドの手動検査は、面倒で時間がかかり、観察者間および観察者内で大きなばらつきがあります。最近、全スライドスキャンシステムの出現により、病理学スライドの迅速なデジタル化が可能になり、デジタルワークフローの開発が可能になりました。これらの進歩により、人工知能(AI)を活用して、病理診断を支援、自動化、および強化することがさらに可能になります。しかし、AI技術、特にディープラーニング(DL)は、学習するために大量の高品質の注釈付きデータを必要とします。このようなタスク固有のデータセットを構築すると、データ取得レベルの制約、時間と費用のかかる注釈、個人情報の匿名化など、いくつかの課題が発生します。この論文では、乳房病変の特性評価を容易にするために、注釈付きヘマトキシリン&エオシン(H&E)染色画像の大規模コホートであるBReAst癌サブタイピング(BRACS)データセットを紹介します。 BRACSには、547個の全スライド画像(WSI)と、WSIから抽出された4539個の関心領域(ROI)が含まれています。各WSIおよびそれぞれのROIは、3人の理事会認定病理学者のコンセンサスによって異なる病変カテゴリーに注釈が付けられています。具体的には、BRACSには、良性、悪性、非定型の3つの病変タイプがあり、さらに7つのカテゴリに分類されます。これは、私たちの知る限り、WSIレベルとROIレベルの両方での乳がんサブタイピングの最大の注釈付きデータセットです。さらに、十分に研究されていない非定型病変を含めることにより、BRACSはAIを活用してそれらの特性をよりよく理解するためのユニークな機会を提供します。
Breast cancer is the most commonly diagnosed cancer and registers the highest number of deaths for women with cancer. Recent advancements in diagnostic activities combined with large-scale screening policies have significantly lowered the mortality rates for breast cancer patients. However, the manual inspection of tissue slides by the pathologists is cumbersome, time-consuming, and is subject to significant inter- and intra-observer variability. Recently, the advent of whole-slide scanning systems have empowered the rapid digitization of pathology slides, and enabled to develop digital workflows. These advances further enable to leverage Artificial Intelligence (AI) to assist, automate, and augment pathological diagnosis. But the AI techniques, especially Deep Learning (DL), require a large amount of high-quality annotated data to learn from. Constructing such task-specific datasets poses several challenges, such as, data-acquisition level constrains, time-consuming and expensive annotations, and anonymization of private information. In this paper, we introduce the BReAst Carcinoma Subtyping (BRACS) dataset, a large cohort of annotated Hematoxylin & Eosin (H&E)-stained images to facilitate the characterization of breast lesions. BRACS contains 547 Whole-Slide Images (WSIs), and 4539 Regions of Interest (ROIs) extracted from the WSIs. Each WSI, and respective ROIs, are annotated by the consensus of three board-certified pathologists into different lesion categories. Specifically, BRACS includes three lesion types, i.e., benign, malignant and atypical, which are further subtyped into seven categories. It is, to the best of our knowledge, the largest annotated dataset for breast cancer subtyping both at WSI- and ROI-level. Further, by including the understudied atypical lesions, BRACS offers an unique opportunity for leveraging AI to better understand their characteristics.
updated: Mon Nov 08 2021 15:04:16 GMT+0000 (UTC)
published: Mon Nov 08 2021 15:04:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト