ビデオ監視に適用される顔認識(FR)システムのパフォーマンスは、合成顔生成によって設計データが増強されると改善されることが示されています。これは、たとえば、通常、個人ごとに1つの静止画像を持つ参照ギャラリーに依存するペアワイズマッチャー(例:深いシャムネットワーク)に当てはまります。ただし、ソースドメインで合成イメージを生成しても、ドメインシフトw.r.tにより、操作中のパフォーマンスが向上しない場合があります。ターゲットドメイン。さらに、現実的な合成生成のためのGenerative Adversarial Networks(GAN)の出現にもかかわらず、合成面が生成される条件を制御することはしばしば困難です。この論文では、新しい制御可能なGAN(C-GAN)を統合するクロスドメインの顔合成アプローチを提案します。さまざまなポーズで顔画像を生成するためのシミュレータとして市販の3D顔モデルを採用しています。シミュレートされた画像とノイズは、第三のプレーヤーとして追加の敵対的なゲームを採用して洗練された画像のアイデンティティと特定の顔の属性を保持するために、C-GANに入力されます。これにより、ターゲットドメインでのキャプチャ条件を反映した現実的な合成顔画像を生成しながら、GAN出力を制御して、望ましいポーズ条件で顔を生成できます。実験は、ChokepointおよびCOX-S2Vデータセットからのビデオと、FRの深いシャムネットワークを使用して実行されました。結果は、提案されたアプローチが、合成データ増強のための現在の最先端のアプローチと比較して、より高いレベルの精度を提供できることを示しています。
The performance of face recognition (FR) systems applied in video surveillance has been shown to improve when the design data is augmented through synthetic face generation. This is true, for instance, with pair-wise matchers (e.g., deep Siamese networks) that typically rely on a reference gallery with one still image per individual. However, generating synthetic images in the source domain may not improve the performance during operations due to the domain shift w.r.t. the target domain. Moreover, despite the emergence of Generative Adversarial Networks (GANs) for realistic synthetic generation, it is often difficult to control the conditions under which synthetic faces are generated. In this paper, a cross-domain face synthesis approach is proposed that integrates a new Controllable GAN (C-GAN). It employs an off-the-shelf 3D face model as a simulator to generate face images under various poses. The simulated images and noise are input to the C-GAN for realism refinement which employs an additional adversarial game as a third player to preserve the identity and specific facial attributes of the refined images. This allows generating realistic synthetic face images that reflects capture conditions in the target domain while controlling the GAN output to generate faces under desired pose conditions. Experiments were performed using videos from the Chokepoint and COX-S2V datasets, and a deep Siamese network for FR with a single reference still per person. Results indicate that the proposed approach can provide a higher level of accuracy compared to the current state-of-the-art approaches for synthetic data augmentation.