arXiv reaDer
FastLR:統合発火機能を備えた非自己回帰読唇モデル
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire
読唇術は印象的な技術であり、近年、正確さが確実に向上しています。ただし、既存の読解方法は主に自己回帰(AR)モデルに基づいており、ターゲットトークンを1つずつ生成し、推論の待ち時間が長くなります。この制約を突破するために、すべてのターゲットトークンを同時に生成する非自己回帰(NAR)読解モデルであるFastLRを提案します。 NAR lipreadingは、多くの困難を伴う挑戦的なタスクです。1)ソースとターゲットの間のシーケンス長の不一致により、出力シーケンスの長さを推定することが困難になります。 2)NAR生成の条件付きで独立した動作には、時間の相関関係が欠けているため、ターゲット分布の近似が不十分です。 3)エンコーダーの機能表現能力は、効果的な位置合わせメカニズムがないために弱い場合があります。 4)AR言語モデルの削除は、読唇の固有のあいまいさの問題を悪化させます。したがって、このホワイトペーパーでは、FastLRモデルとARモデルのギャップを減らすための3つの方法を紹介します。1)課題1と2に対処するために、統合射撃(I \&F)モジュールを利用してソースビデオフレーム間の対応をモデル化そしてテキストシーケンスを出力します。 2)課題3に取り組むために、補助コネクショニスト時間分類(CTC)デコーダーをエンコーダーの上部に追加し、CTC損失を追加して最適化します。また、補助自己回帰デコーダーを追加して、エンコーダーの機能抽出を支援します。 3)課題4を克服するために、I \&Fの新しいNoisy Parallel Decoding(NPD)を提案し、バイトペアエンコーディング(BPE)を読み上げに取り入れます。私たちの実験は、FastLRがGRIDとLRS2のリピーディングデータセットでそれぞれ1.5%と5.5%のわずかなWER絶対増加を伴う最先端のリピーディングモデルと比較して、最大10.97倍のスピードアップを達成することを示し、提案された方法の有効性を示しています。
Lipreading is an impressive technique and there has been a definite improvement of accuracy in recent years. However, existing methods for lipreading mainly build on autoregressive (AR) model, which generate target tokens one by one and suffer from high inference latency. To breakthrough this constraint, we propose FastLR, a non-autoregressive (NAR) lipreading model which generates all target tokens simultaneously. NAR lipreading is a challenging task that has many difficulties: 1) the discrepancy of sequence lengths between source and target makes it difficult to estimate the length of the output sequence; 2) the conditionally independent behavior of NAR generation lacks the correlation across time which leads to a poor approximation of target distribution; 3) the feature representation ability of encoder can be weak due to lack of effective alignment mechanism; and 4) the removal of AR language model exacerbates the inherent ambiguity problem of lipreading. Thus, in this paper, we introduce three methods to reduce the gap between FastLR and AR model: 1) to address challenges 1 and 2, we leverage integrate-and-fire (I\&F) module to model the correspondence between source video frames and output text sequence. 2) To tackle challenge 3, we add an auxiliary connectionist temporal classification (CTC) decoder to the top of the encoder and optimize it with extra CTC loss. We also add an auxiliary autoregressive decoder to help the feature extraction of encoder. 3) To overcome challenge 4, we propose a novel Noisy Parallel Decoding (NPD) for I\&F and bring Byte-Pair Encoding (BPE) into lipreading. Our experiments exhibit that FastLR achieves the speedup up to 10.97× comparing with state-of-the-art lipreading model with slight WER absolute increase of 1.5% and 5.5% on GRID and LRS2 lipreading datasets respectively, which demonstrates the effectiveness of our proposed method.
updated: Mon Mar 15 2021 07:23:19 GMT+0000 (UTC)
published: Thu Aug 06 2020 08:28:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト