arXiv reaDer
視覚言語事前トレーニング モデルによる医療用音声テキスト変換精度の向上
Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model
自動音声認識 (ASR) は、話された言葉をテキストに変換し、人間と機械の相互作用を促進する技術です。 ASR の最も一般的なアプリケーションの 1 つは Speech-To-Text (STT) テクノロジです。これは、話された言葉をテキストに書き写すことでユーザーのワークフローを簡素化します。医療分野では、STT はタイピストに音声録音の書き起こしを頼っている臨床医の作業負荷を大幅に削減する可能性を秘めています。ただし、十分な音声とテキストのデータセットが不足しているため、医療分野の STT モデルの開発は困難です。この問題に対処するために、Vision Language Pre-training (VLP) メソッドを使用して一般的な STT システムの出力テキストを変更する医療ドメインのテキスト修正方法を提案します。 VLP は、テキスト情報と視覚情報を組み合わせて、画像の知識に基づいてテキストを修正します。私たちの広範な実験は、提案された方法が医療分野におけるSTTパフォーマンスの定量的および臨床的に有意な改善を提供することを示しています。さらに、画像とテキスト情報のマルチモーダル理解は、テキスト情報のみを使用したシングルモーダル理解よりも優れていることを示しています。
Automatic Speech Recognition (ASR) is a technology that converts spoken words into text, facilitating interaction between humans and machines. One of the most common applications of ASR is Speech-To-Text (STT) technology, which simplifies user workflows by transcribing spoken words into text. In the medical field, STT has the potential to significantly reduce the workload of clinicians who rely on typists to transcribe their voice recordings. However, developing an STT model for the medical domain is challenging due to the lack of sufficient speech and text datasets. To address this issue, we propose a medical-domain text correction method that modifies the output text of a general STT system using the Vision Language Pre-training (VLP) method. VLP combines textual and visual information to correct text based on image knowledge. Our extensive experiments demonstrate that the proposed method offers quantitatively and clinically significant improvements in STT performance in the medical field. We further show that multi-modal understanding of image and text information outperforms single-modal understanding using only text information.
updated: Mon Feb 27 2023 08:06:04 GMT+0000 (UTC)
published: Mon Feb 27 2023 08:06:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト