arXiv reaDer
m2caiSeg:畳み込みニューラルネットワークを使用した腹腔鏡画像のセマンティックセグメンテーション
m2caiSeg: Semantic Segmentation of Laparoscopic Images using Convolutional Neural Networks
自律的外科手術、特に最小侵襲手術は、人工知能研究の次のフロンティアです。ただし、既存の課題には、人体の解剖学と手術の設定の正確な識別、および自律エージェントのトレーニングのための環境のモデリングが含まれます。人間の解剖学と手術の設定の識別に対処するために、人間の胴体領域の内視鏡ビデオフィードの組織と臓器を識別してラベル付けするためのディープラーニングベースのセマンティックセグメンテーションアルゴリズムを提案します。実世界の外科手術の内視鏡ビデオフィードから作成された注釈付きデータセットm2caiSegを提示します。全体として、データは307枚の画像で構成され、それぞれにシーン内の臓器やさまざまな手術器具の注釈が付けられています。セマンティックセグメンテーションタスクのための深い畳み込みニューラルネットワークを提案してトレーニングします。少量の注釈付きデータに対応するために、教師なしの事前トレーニングとデータ拡張を使用します。訓練されたモデルは、提案されたデータセットの独立したテストセットで評価されます。セマンティックセグメンテーションタスクのすべてのラベル付きカテゴリを使用しながら、0.33のF1スコアを取得しました。次に、すべての楽器に「楽器」スーパークラスのラベルを付けて、さまざまな臓器の識別におけるモデルのパフォーマンスを評価し、F1スコア0.57を取得しました。内視鏡手術シーンにおけるさまざまな臓器と器具のピクセルレベルの識別のための新しいデータセットと深層学習法を提案します。手術現場の理解は、手術手順の自動化に向けた最初のステップの1つです。
Autonomous surgical procedures, in particular minimal invasive surgeries, are the next frontier for Artificial Intelligence research. However, the existing challenges include precise identification of the human anatomy and the surgical settings, and modeling the environment for training of an autonomous agent. To address the identification of human anatomy and the surgical settings, we propose a deep learning based semantic segmentation algorithm to identify and label the tissues and organs in the endoscopic video feed of the human torso region. We present an annotated dataset, m2caiSeg, created from endoscopic video feeds of real-world surgical procedures. Overall, the data consists of 307 images, each of which is annotated for the organs and different surgical instruments present in the scene. We propose and train a deep convolutional neural network for the semantic segmentation task. To cater for the low quantity of annotated data, we use unsupervised pre-training and data augmentation. The trained model is evaluated on an independent test set of the proposed dataset. We obtained a F1 score of 0.33 while using all the labeled categories for the semantic segmentation task. Secondly, we labeled all instruments into an 'Instruments' superclass to evaluate the model's performance on discerning the various organs and obtained a F1 score of 0.57. We propose a new dataset and a deep learning method for pixel level identification of various organs and instruments in a endoscopic surgical scene. Surgical scene understanding is one of the first steps towards automating surgical procedures.
updated: Thu Dec 10 2020 21:34:59 GMT+0000 (UTC)
published: Sun Aug 23 2020 23:30:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト