目的医用画像分析における解剖学的構造の自動セグメンテーションは、自律診断だけでなく、さまざまなコンピューターやロボット支援による介入の前提条件です。深い畳み込みニューラルネットワーク(CNN)に基づく最近の方法は、以前のヒューリスティックな方法よりも優れています。ただし、これらの方法は主に、現実世界の厳格な環境で評価されました。この研究では、既存のセグメンテーション手法を、経口内視鏡検査の新しいデータセットでの使用について評価しました。方法機械学習ベースの4つの方法SegNet、UNet、ENet、ErfNetは、人間の喉頭の新しい7クラスのデータセットを監視しながらトレーニングされました。データセットには、レーザー切開中に2人の患者から手動でセグメント化された536の画像が含まれています。 Intersection-over-Union(IoU)評価メトリックを使用して、各メソッドの精度を測定しました。セグメンテーションの精度を高めるために、データ拡張とネットワークの統合が採用されました。確率推論は、個々のモデルの不確実性を示すために使用されました。患者間の転送は、患者固有の微調整を使用して調査されました。結果この研究では、UNetとErfNetの加重平均アンサンブルネットワークが、平均IoUが84.7%の喉頭軟組織のセグメンテーションに最適でした。 ENetにより、画像あたりの平均推論時間は9.22 msで最高の効率が達成されました。新しい患者からの10枚の追加画像は、患者固有の微調整に十分であることを示しています。結論セマンティックセグメンテーションのCNNベースの方法は、喉頭軟部組織の内視鏡画像に適用できます。セグメンテーションは、アクティブな制約に使用したり、形態学的変化を監視して自律的に病変を検出したりするために使用できます。より大きなデータセットを使用するか、追加のラベル付けされていないデータに対して自己管理された方法でモデルをトレーニングすることにより、さらなる改善を達成できます。
Purpose Automated segmentation of anatomical structures in medical image analysis is a prerequisite for autonomous diagnosis as well as various computer and robot aided interventions. Recent methods based on deep convolutional neural networks (CNN) have outperformed former heuristic methods. However, those methods were primarily evaluated on rigid, real-world environments. In this study, existing segmentation methods were evaluated for their use on a new dataset of transoral endoscopic exploration. Methods Four machine learning based methods SegNet, UNet, ENet and ErfNet were trained with supervision on a novel 7-class dataset of the human larynx. The dataset contains 536 manually segmented images from two patients during laser incisions. The Intersection-over-Union (IoU) evaluation metric was used to measure the accuracy of each method. Data augmentation and network ensembling were employed to increase segmentation accuracy. Stochastic inference was used to show uncertainties of the individual models. Patient-to-patient transfer was investigated using patient-specific fine-tuning. Results In this study, a weighted average ensemble network of UNet and ErfNet was best suited for the segmentation of laryngeal soft tissue with a mean IoU of 84.7 %. The highest efficiency was achieved by ENet with a mean inference time of 9.22 ms per image. It is shown that 10 additional images from a new patient are sufficient for patient-specific fine-tuning. Conclusion CNN-based methods for semantic segmentation are applicable to endoscopic images of laryngeal soft tissue. The segmentation can be used for active constraints or to monitor morphological changes and autonomously detect pathologies. Further improvements could be achieved by using a larger dataset or training the models in a self-supervised manner on additional unlabeled data.