Real-Time Lip Sync for Live 2D Animation
  リアルタイムパフォーマンスベースの2Dアニメーション用の商用ツールの登場により、2Dキャラクターがライブブロードキャストおよびストリーミングプラットフォームに表示されるようになりました。ライブアニメーションの重要な要件は、キャラクターが人間のパフォーマーの声を通して他の俳優や観客に自然に反応できるようにする高速で正確なリップシンクです。この作業では、Long Short Term Memory(LSTM)モデルを使用して、階層化された2Dキャラクターのライブリップシンクを自動的に生成する、ディープラーニングベースのインタラクティブシステムを紹介します。このシステムは、ストリーミングオーディオを入力として受け取り、200ms未満のレイテンシ(処理時間を含む)でvisemeシーケンスを生成します。私たちの貢献には、機能定義とLSTM構成の具体的な設計上の決定が含まれます。これは、正確ではあるがリップシンクを生成するために少量ではあるが有用な先読みを提供します。また、非常に少量の手作業のトレーニングデータ(13〜20分)で良好な結果を達成できるようにするデータ拡張手順についても説明します。広範な人間の判断実験により、オフライン(非ライブ)処理のみをサポートする方法を含む、いくつかの競合する方法よりも結果が好ましいことが示されています。 GitHubリンクのビデオの概要と補足結果:
The emergence of commercial tools for real-time performance-based 2D animation has enabled 2D characters to appear on live broadcasts and streaming platforms. A key requirement for live animation is fast and accurate lip sync that allows characters to respond naturally to other actors or the audience through the voice of a human performer. In this work, we present a deep learning based interactive system that automatically generates live lip sync for layered 2D characters using a Long Short Term Memory (LSTM) model. Our system takes streaming audio as input and produces viseme sequences with less than 200ms of latency (including processing time). Our contributions include specific design decisions for our feature definition and LSTM configuration that provide a small but useful amount of lookahead to produce accurate lip sync. We also describe a data augmentation procedure that allows us to achieve good results with a very small amount of hand-animated training data (13-20 minutes). Extensive human judgement experiments show that our results are preferred over several competing methods, including those that only support offline (non-live) processing. Video summary and supplementary results at GitHub link:
