スピーチ中の舌の動きの共通および主題固有の機能単位を識別するためのディープ ジョイント スパース非負行列因子分解フレームワーク
A Deep Joint Sparse Non-negative Matrix Factorization Framework for Identifying the Common and Subject-specific Functional Units of Tongue Motion During Speech
了解度の高い音声は、体系的かつ協調的な方法で生成されるさまざまな内部局所筋肉グループ (つまり、機能単位) を作成することによって生成されます。機能単位の特徴付けと分析には2つの大きな課題があります.第一に、舌の構造と機能は複雑で複雑な性質を持っているため、発話中に複雑な筋肉協調パターンを正確に解読できる方法を開発することが非常に重要です.第二に、識別された機能単位を被験者間で同等に保つことは、かなりの変動性があるため困難です。この作業では、これらの課題に対処するために、スピーチ中の舌の動きの共通および主題固有の機能単位を識別するための新しい深層学習フレームワークを開発します。~私たちのフレームワークは、ジョイント ディープ グラフ正則化スパース非負行列因子分解 (NMF) に依存します。タグ付き磁気共鳴画像法による変位から得られた運動量を使用。より具体的には、反復縮小しきい値アルゴリズムを展開して解釈可能なビルディング ブロックと関連する重みマップを学習することにより、スパース規則化とグラフ正則化を備えた NMF をディープ ニューラル ネットワークに似たモジュール アーキテクチャに変換します。次に、スペクトル クラスタリングを共通および主題固有の重みマップに適用し、そこから共通および主題固有の機能単位を共同で決定します。シミュレートされたデータセットで実行された実験は、提案された方法が比較方法よりも同等またはそれ以上のクラスタリング パフォーマンスを達成したことを示しています。インビボの舌の動きのデータを使用して実施された実験は、提案された方法が、解釈可能性を高め、サイズの変動性を減少させた、共通および主題固有の機能単位を決定できることを示しています。
Intelligible speech is produced by creating varying internal local muscle groupings -- i.e., functional units -- that are generated in a systematic and coordinated manner. There are two major challenges in characterizing and analyzing functional units.~First, due to the complex and convoluted nature of tongue structure and function, it is of great importance to develop a method that can accurately decode complex muscle coordination patterns during speech. Second, it is challenging to keep identified functional units across subjects comparable due to their substantial variability. In this work, to address these challenges, we develop a new deep learning framework to identify common and subject-specific functional units of tongue motion during speech.~Our framework hinges on joint deep graph-regularized sparse non-negative matrix factorization (NMF) using motion quantities derived from displacements by tagged Magnetic Resonance Imaging. More specifically, we transform NMF with sparse and graph regularizations into modular architectures akin to deep neural networks by means of unfolding the Iterative Shrinkage-Thresholding Algorithm to learn interpretable building blocks and associated weighting map. We then apply spectral clustering to common and subject-specific weighting maps from which we jointly determine the common and subject-specific functional units. Experiments carried out with simulated datasets show that the proposed method achieved on par or better clustering performance over the comparison methods. Experiments carried out with in vivo tongue motion data show that the proposed method can determine the common and subject-specific functional units with increased interpretability and decreased size variability.
updated: Sun Jun 06 2021 23:10:25 GMT+0000 (UTC)
published: Thu Jul 09 2020 15:05:44 GMT+0000 (UTC)
