オージオグラムは、さまざまな周波数での個人の聴力レベルを表す特定のタイプの折れ線グラフです。これらは、聴覚障害者が難聴を診断し、さらに顧客に適した補聴器を選択して調整するために使用されます。機械学習によってこのプロセスを加速することを目的としたAutoaudioなどのいくつかのプロジェクトがあります。しかし、既存のすべてのモデルは、最高の状態で、画像内のオージオグラムを検出し、それらを一般的なカテゴリに分類することしかできません。マーク、軸、線を解釈して、検出されたオージオグラムから聴力レベル情報を抽出することはできません。この問題に対処するために、オージオグラムの写真から聴力レベルデータを直接読み取る多段オージオグラム解釈ネットワーク(MAIN)を提案します。また、提案されたモデルをトレーニングおよび評価したマークと軸の注釈が付いたオージオグラム画像のオープンデータセットであるOpenAudiogramを確立しました。実験は、私たちのモデルが実行可能で信頼できることを示しています。
Audiograms are a particular type of line charts representing individuals' hearing level at various frequencies. They are used by audiologists to diagnose hearing loss, and further select and tune appropriate hearing aids for customers. There have been several projects such as Autoaudio that aim to accelerate this process through means of machine learning. But all existing models at their best can only detect audiograms in images and classify them into general categories. They are unable to extract hearing level information from detected audiograms by interpreting the marks, axis, and lines. To address this issue, we propose a Multi-stage Audiogram Interpretation Network (MAIN) that directly reads hearing level data from photos of audiograms. We also established Open Audiogram, an open dataset of audiogram images with annotations of marks and axes on which we trained and evaluated our proposed model. Experiments show that our model is feasible and reliable.