近年、音声をテキストに変換することなく、波形をインテントやスロットなどの構造化データに分類する音声理解システムの開発が興味深い研究課題として浮上しています。この作業は、最小の待ち時間で小さなマイクロコントローラーや組み込みシステムで実行するのに十分小さいフットプリントを持つシステムを設計するという追加の制約があるシステムなどを提案します。ストリーミング入力音声信号が与えられると、提案されたシステムは、処理の瞬間にストリーム全体を持っている必要なしに、セグメントごとにそれを処理することができます。提案されたシステムは、公開されているFluent SpeechCommandsデータセットで評価されます。実験によると、提案されたシステムは、同じタスクで公開されている他の作品と比較した場合、待ち時間が短く、モデルがはるかに小さいという利点を備えた最先端のパフォーマンスを実現します。
In recent years, developing a speech understanding system that classifies a waveform to structured data, such as intents and slots, without first transcribing the speech to text has emerged as an interesting research problem. This work proposes such as system with an additional constraint of designing a system that has a small enough footprint to run on small micro-controllers and embedded systems with minimal latency. Given a streaming input speech signal, the proposed system can process it segment-by-segment without the need to have the entire stream at the moment of processing. The proposed system is evaluated on the publicly available Fluent Speech Commands dataset. Experiments show that the proposed system yields state-of-the-art performance with the advantage of low latency and a much smaller model when compared to other published works on the same task.