Automatic vocal tract landmark localization from midsagittal MRI data
 言語のさまざまな音声は、声道を囲む咬合器の形状と位置を変えることで得られます。音声の生成を理解し、音声障害を診断し、治療計画を立てるには、それらの変化を分析することが重要です。医療画像でこれらの構造の主要な解剖学的ランドマークを特定することは、定量分析の前提条件であり、フィールドで生成されるデータ量の増加は自動ソリューションを必要とします。課題は、スピーカー間およびスピーカー内の高いばらつき、咬合器間の相互作用、および画像の適度な品質にあります。この調査では、この問題に初めて取り組み、ディープラーニングによる手段で取り組んでいます。 Flat-netという名前の専用ネットワークアーキテクチャを提案し、そのパフォーマンスを評価し、文献に記載されている11の最新の方法と比較します。データセットには、画像ごとに21の注釈付き解剖学的ランドマークを持つ62の関節を維持する9人のスピーカーの正中矢状の解剖学的磁気共鳴画像が含まれています。結果は、Flat-netアプローチが前者の方法よりも優れていることを示しており、スピーカー上でleave-one-outプロシージャで得られた3.6ピクセル/0.36 cmの全体の二乗平均平方根誤差につながります。実装コードもGitHubで公開されています。
The various speech sounds of a language are obtained by varying the shape and position of the articulators surrounding the vocal tract. Analyzing their variations is crucial for understanding speech production, diagnosing speech disorders and planning therapy. Identifying key anatomical landmarks of these structures on medical images is a pre-requisite for any quantitative analysis and the rising amount of data generated in the field calls for an automatic solution. The challenge lies in the high inter- and intra-speaker variability, the mutual interaction between the articulators and the moderate quality of the images. This study addresses this issue for the first time and tackles it by means by means of Deep Learning. It proposes a dedicated network architecture named Flat-net and its performance are evaluated and compared with eleven state-of-the-art methods from the literature. The dataset contains midsagittal anatomical Magnetic Resonance Images for 9 speakers sustaining 62 articulations with 21 annotated anatomical landmarks per image. Results show that the Flat-net approach outperforms the former methods, leading to an overall Root Mean Square Error of 3.6 pixels/0.36 cm obtained in a leave-one-out procedure over the speakers. The implementation codes are also shared publicly on GitHub.
updated: Thu Jan 09 2020 16:37:46 GMT+0000 (UTC)
published: Thu Jul 18 2019 09:38:09 GMT+0000 (UTC)
