Face Mask Extraction in Video Sequence
セマンティック画像セグメンテーションにおけるディープネットワークベースのメソッドの最近の開発に触発されて、ビデオシーケンスでのフェイスマスク抽出のためのエンドツーエンドのトレーニング可能なモデルを紹介します。ランドマークベースのまばらな顔の形状表現と比較して、私たちの方法は、個々の顔のコンポーネントのセグメンテーションマスクを生成でき、詳細な形状の変化をより適切に反映できます。畳み込みLSTM(ConvLSTM)アルゴリズムを完全畳み込みネットワーク(FCN)と統合することにより、新しいConvLSTM-FCNモデルはシーケンスごとに機能し、ビデオクリップの時間的相関を利用します。さらに、Intersection over Union(IoU)のパフォーマンスを直接最適化するために、セグメンテーション損失と呼ばれる新しい損失関数も提案します。実際には、セグメンテーションの精度をさらに高めるために、1つのプライマリモデルと2つの追加モデルが、それぞれ顔、目、口の領域に焦点を合わせるようにトレーニングされました。私たちの実験は、提案された方法が、300ビデオインザワイルド(300VW)データセットのベースラインFCNモデルに対して16.99%の相対的改善(54.50%から63.76%の平均IoU)を達成したことを示しています。
Inspired by the recent development of deep network-based methods in semantic image segmentation, we introduce an end-to-end trainable model for face mask extraction in video sequence. Comparing to landmark-based sparse face shape representation, our method can produce the segmentation masks of individual facial components, which can better reflect their detailed shape variations. By integrating Convolutional LSTM (ConvLSTM) algorithm with Fully Convolutional Networks (FCN), our new ConvLSTM-FCN model works on a per-sequence basis and takes advantage of the temporal correlation in video clips. In addition, we also propose a novel loss function, called Segmentation Loss, to directly optimise the Intersection over Union (IoU) performances. In practice, to further increase segmentation accuracy, one primary model and two additional models were trained to focus on the face, eyes, and mouth regions, respectively. Our experiment shows the proposed method has achieved a 16.99% relative improvement (from 54.50% to 63.76% mean IoU) over the baseline FCN model on the 300 Videos in the Wild (300VW) dataset.
updated: Sat Feb 27 2021 17:42:27 GMT+0000 (UTC)
published: Tue Jul 24 2018 16:09:32 GMT+0000 (UTC)
