arXiv reaDer
状況に応じた半教師あり学習:ASRシステムで航空監視と転写されていないATCデータを活用するためのアプローチ
Contextual Semi-Supervised Learning: An Approach To Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems
航空交通管理、特に航空交通管制(ATC)は、主に航空管制官(ATCo)とパイロット間の音声通信に依存しています。ほとんどの場合、これらの音声通信は、自動音声認識(ASR)テクノロジーで活用できる明確に定義された文法に従います。飛行機のアドレス指定に使用されるコールサインは、すべてのATCoパイロット通信の重要な部分です。コールサインを含む発話の部分を認識する際のASRシステムのエラー率を減らすために、半教師ありトレーニング中にコンテキスト知識を追加する2段階のアプローチを提案します。最初に、WFSTで、ATCoパイロット通信のコンテキスト知識(つまり、航空監視データ)を表します。次に、半教師あり学習(SSL)中に、コンテキスト知識が2番目のパスのデコード(つまり、ラティスの再スコアリング)によって追加されます。結果は、スタンドアロンSSLと比較した場合、「見えないドメイン」(たとえば、監視対象のトレーニングデータに存在しない空港からのデータ)がコンテキストSSLによってさらに支援されることを示しています。このタスクでは、評価メトリックとしてコールサインワードエラーレート(CA-WER)を導入します。これは、発話で話されたコールサインのASRパフォーマンスのみを評価します。 LiveATCから収集された挑戦的なATCベースのテストセットでSSL中にコンテキスト知識を追加することにより、SSLを適用して32.1%のCA-WER相対的改善が得られ、さらに17.5%のCA-WER改善が得られました。
Air traffic management and specifically air-traffic control (ATC) rely mostly on voice communications between Air Traffic Controllers (ATCos) and pilots. In most cases, these voice communications follow a well-defined grammar that could be leveraged in Automatic Speech Recognition (ASR) technologies. The callsign used to address an airplane is an essential part of all ATCo-pilot communications. We propose a two-steps approach to add contextual knowledge during semi-supervised training to reduce the ASR system error rates at recognizing the part of the utterance that contains the callsign. Initially, we represent in a WFST the contextual knowledge (i.e. air-surveillance data) of an ATCo-pilot communication. Then, during Semi-Supervised Learning (SSL) the contextual knowledge is added by second-pass decoding (i.e. lattice re-scoring). Results show that `unseen domains' (e.g. data from airports not present in the supervised training data) are further aided by contextual SSL when compared to standalone SSL. For this task, we introduce the Callsign Word Error Rate (CA-WER) as an evaluation metric, which only assesses ASR performance of the spoken callsign in an utterance. We obtained a 32.1% CA-WER relative improvement applying SSL with an additional 17.5% CA-WER improvement by adding contextual knowledge during SSL on a challenging ATC-based test set gathered from LiveATC.
updated: Fri Aug 27 2021 08:18:13 GMT+0000 (UTC)
published: Thu Apr 08 2021 09:53:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト