arXiv reaDer
ピーク グラウンド トゥルースに近づく
Approaching Peak Ground Truth
機械学習モデルは通常、参照アノテーションとの類似性を計算することによって評価され、そのようなものとの類似性を最大化することによってトレーニングされます。特に生物医学分野では、注釈は主観的であり、評価者間および評価者内の信頼性が低いという問題があります。注釈は現実世界の 1 つの解釈のみを反映するため、モデルが高い類似性スコアを達成したとしても、最適ではない予測につながる可能性があります。ここでは、PGT の理論的な概念を紹介します。 PGT は、参照アノテーションとの類似性の増加がより良い RWMP への変換を停止するポイントを示します。さらに、評価者間および評価者内の信頼性を計算することによって PGT を近似する定量的手法が提案されています。最後に、モデルのパフォーマンスを評価および改善するための PGT を意識した戦略の 4 つのカテゴリを確認します。
Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the biomedical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect one interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of PGT is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better RWMP. Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, four categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
updated: Sat Mar 18 2023 20:37:43 GMT+0000 (UTC)
published: Sat Dec 31 2022 16:22:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト