arXiv reaDer
A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading
 読唇術は、話者の口の動きからテキストを解読することを目的としています。近年、英語では、単語レベルと文レベルの両方で、唇の読み方が大きく進歩しました。ただし、英語とは異なり、中国語(標準中国語)は音調ベースの言語であり、語彙的または文法的な意味を区別するためにピッチに依存しているため、唇の読みの作業の曖昧さが大幅に増加します。この論文では、文を予測するときにトーンを明示的にモデル化する、中国語標準中国語(CSSMCM)の唇読みのカスケードシーケンスシーケンスモデルを提案します。トーンは、視覚情報と構文構造に基づいてモデル化され、視覚情報と構文構造とともに文を予測するために使用されます。 CSSMCMを評価するために、CMLR(Chinese Mandarin Lip Reading)と呼ばれるデータセットが収集され、リリースされます。これは、China Network Television Webサイトからの100,000を超える自然文で構成されています。 CMLRデータセットのトレーニングを受けた場合、提案されているCSSMCMは、最先端の読み上げフレームワークのパフォーマンスを上回り、中国語の標準的な読み上げの音の明示的なモデリングの有効性を確認します。
Lip reading aims at decoding texts from the movement of a speaker's mouth. In recent years, lip reading methods have made great progress for English, at both word-level and sentence-level. Unlike English, however, Chinese Mandarin is a tone-based language and relies on pitches to distinguish lexical or grammatical meaning, which significantly increases the ambiguity for the lip reading task. In this paper, we propose a Cascade Sequence-to-Sequence Model for Chinese Mandarin (CSSMCM) lip reading, which explicitly models tones when predicting sentence. Tones are modeled based on visual information and syntactic structure, and are used to predict sentence along with visual information and syntactic structure. In order to evaluate CSSMCM, a dataset called CMLR (Chinese Mandarin Lip Reading) is collected and released, consisting of over 100,000 natural sentences from China Network Television website. When trained on CMLR dataset, the proposed CSSMCM surpasses the performance of state-of-the-art lip reading frameworks, which confirms the effectiveness of explicit modeling of tones for Chinese Mandarin lip reading.
updated: Thu Nov 28 2019 01:31:38 GMT+0000 (UTC)
published: Wed Aug 14 2019 01:49:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト