arXiv reaDer
音声から顔を生成するための制御されたオートエンコーダ
Controlled AutoEncoders to Generate Faces from Voices
過去の複数の研究は、人間の声の特徴と顔の特徴との間に強い相関関係があることを示しています。ただし、既存のアプローチでは、これらの観察された相関関係に寄与する一連の機能を調査することなく、単に音声から顔を生成します。これを調査するための計算方法は、質問を次のように言い換えることによって考案できます。「ソース音声の発信者として認識されるためには、ターゲットの顔をどれだけ変更する必要がありますか?」これを視野に入れて、本論文で学習した声と顔の相関によって顔の特徴が暗黙的に導かれるように、与えられた声に応じてターゲットの顔をモーフィングするフレームワークを提案します。私たちのフレームワークには、入力音声録音に基づいて再構築された顔を変更するゲーティングコントローラーと呼ばれる独自のモデル調整コンポーネントによって制御される、ある顔を別の顔に変換するガイド付きオートエンコーダーが含まれています。人間の被験者と顔の検索を通じて、VoxCelabおよびVGGFaceデータセットのフレームワークを評価します。さまざまな実験により、提案されたモデルの有効性が実証されています。
Multiple studies in the past have shown that there is a strong correlation between human vocal characteristics and facial features. However, existing approaches generate faces simply from voice, without exploring the set of features that contribute to these observed correlations. A computational methodology to explore this can be devised by rephrasing the question to: "how much would a target face have to change in order to be perceived as the originator of a source voice?" With this in perspective, we propose a framework to morph a target face in response to a given voice in a way that facial features are implicitly guided by learned voice-face correlation in this paper. Our framework includes a guided autoencoder that converts one face to another, controlled by a unique model-conditioning component called a gating controller which modifies the reconstructed face based on input voice recordings. We evaluate the framework on VoxCelab and VGGFace datasets through human subjects and face retrieval. Various experiments demonstrate the effectiveness of our proposed model.
updated: Fri Jul 16 2021 16:04:29 GMT+0000 (UTC)
published: Fri Jul 16 2021 16:04:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト