arXiv reaDer
あらゆるデバイスで耳疾患をリアルタイム診断するための超高速かつ超軽量のネットワークベースのインテリジェント システム
Ultrafast and Ultralight Network-Based Intelligent System for Real-time Diagnosis of Ear diseases in Any Devices
従来の耳疾患の診断は、経験豊富な専門家と専用の機器に大きく依存しており、誤診、治療の遅れ、一部の患者の経済的負担を引き起こすことがよくあります。効率的な耳疾患診断に深層学習モデルを利用することは、効果的かつ手頃な価格であることが証明されています。しかし、既存の研究では、展開に必要なモデルの推論速度とパラメータのサイズが見落とされていました。これらの課題に取り組むために、私たちは 8 つの耳疾患カテゴリーと 2 つの病院からの正常な外耳道のサンプルで構成される大規模なデータセットを構築しました。 ShuffleNetV2 からインスピレーションを得て、リアルタイムの耳疾患診断を可能にする超高速かつ超軽量のネットワークである Best-EarNet を開発しました。 Best-EarNet には、グローバルとローカルの空間情報を同時にキャプチャし、さまざまなレベルの特徴マップ内の重要な領域に焦点を当てるようにネットワークを誘導し、低精度の問題を軽減できる、新しいローカル-グローバル空間特徴融合モジュールが組み込まれています。さらに、私たちのネットワークは効率的なパラメータ最適化のために複数の補助分類ヘッドを使用します。 Best-EarNet は、0.77M のパラメータを使用して、CPU 上で 1 秒あたりの平均フレーム数 80 を達成します。 Hospital-1 からの 22,581 枚の画像を使用した転移学習と 5 分割相互検証を採用したこのモデルは、95.23% という驚異的な精度を達成しました。 Hospital-2 からの 1,652 枚の画像に対する外部テストにより、そのパフォーマンスが検証され、92.14% の精度が得られました。最先端のネットワークと比較して、Best-EarNet は実用的なアプリケーションにおいて新しい最先端 (SOTA) を確立します。最も重要なことは、一般的な電子機器に導入できる、Ear Keeper と呼ばれるインテリジェントな診断システムを開発したことです。ユーザーは、コンパクトな電子耳鏡を操作することで、リアルタイムビデオを使用して外耳道の包括的なスキャンと診断を実行できます。この研究は、耳内視鏡検査およびその他の医療用内視鏡画像認識アプリケーションに新しいパラダイムを提供します。
Traditional ear disease diagnosis heavily depends on experienced specialists and specialized equipment, frequently resulting in misdiagnoses, treatment delays, and financial burdens for some patients. Utilizing deep learning models for efficient ear disease diagnosis has proven effective and affordable. However, existing research overlooked model inference speed and parameter size required for deployment. To tackle these challenges, we constructed a large-scale dataset comprising eight ear disease categories and normal ear canal samples from two hospitals. Inspired by ShuffleNetV2, we developed Best-EarNet, an ultrafast and ultralight network enabling real-time ear disease diagnosis. Best-EarNet incorporates the novel Local-Global Spatial Feature Fusion Module which can capture global and local spatial information simultaneously and guide the network to focus on crucial regions within feature maps at various levels, mitigating low accuracy issues. Moreover, our network uses multiple auxiliary classification heads for efficient parameter optimization. With 0.77M parameters, Best-EarNet achieves an average frames per second of 80 on CPU. Employing transfer learning and five-fold cross-validation with 22,581 images from Hospital-1, the model achieves an impressive 95.23% accuracy. External testing on 1,652 images from Hospital-2 validates its performance, yielding 92.14% accuracy. Compared to state-of-the-art networks, Best-EarNet establishes a new state-of-the-art (SOTA) in practical applications. Most importantly, we developed an intelligent diagnosis system called Ear Keeper, which can be deployed on common electronic devices. By manipulating a compact electronic otoscope, users can perform comprehensive scanning and diagnosis of the ear canal using real-time video. This study provides a novel paradigm for ear endoscopy and other medical endoscopic image recognition applications.
updated: Mon Aug 21 2023 10:20:46 GMT+0000 (UTC)
published: Mon Aug 21 2023 10:20:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト