arXiv reaDer
On the Importance of Video Action Recognition for Visual Lipreading
  話者のビデオから単語をデコードする必要がある単語レベルの視覚的読唇に焦点を当てています。最近、最先端の視覚的読唇法の多くは、フロントエンドの視覚的特徴抽出器およびシーケンシャルモデル(例:ResNet)としての2D畳み込みネットワーク(例:ResNet)の使用を含む、エンドツーエンドのトレーニング可能なディープモデルを探索します、Bi-LSTMまたはBi-GRU)をバックエンドとして使用します。深い2D畳み込みニューラルネットワークは有益な画像ベースの機能を提供できますが、隣接するフレーム間に存在する時間的な動きを無視します。この作業では、視覚的な読唇のためのI3D(Inflated 3D ConvNet)の時空間容量を調べます。大規模なビデオアクション認識データセット(キネティクスなど)で事前にトレーニングした後、モデルが読唇作業のパフォーマンスを大幅に改善することを示します。一連のビデオモデルアーキテクチャと入力データ表現の比較も報告されています。 LRWに関する広範な実験により、入力としてRGBビデオとオプティカルフローを備えた2ストリームI3Dモデルが最先端のパフォーマンスを達成することが示されています。
We focus on the word-level visual lipreading, which requires to decode the word from the speaker's video. Recently, many state-of-the-art visual lipreading methods explore the end-to-end trainable deep models, involving the use of 2D convolutional networks (e.g., ResNet) as the front-end visual feature extractor and the sequential model (e.g., Bi-LSTM or Bi-GRU) as the back-end. Although a deep 2D convolution neural network can provide informative image-based features, it ignores the temporal motion existing between the adjacent frames. In this work, we investigate the spatial-temporal capacity power of I3D (Inflated 3D ConvNet) for visual lipreading. We demonstrate that, after pre-trained on the large-scale video action recognition dataset (e.g., Kinetics), our models show a considerable improvement of performance on the task of lipreading. A comparison between a set of video model architectures and input data representation is also reported. Our extensive experiments on LRW shows that a two-stream I3D model with RGB video and optical flow as the inputs achieves the state-of-the-art performance.
updated: Mon Sep 16 2019 15:32:15 GMT+0000 (UTC)
published: Fri Mar 22 2019 17:24:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト