視線と頭のポーズの推定モデルの堅牢性は、ラベル付けされたデータの量に大きく依存します。最近、ジェネレーティブ モデリングは写真のようにリアルな画像を生成する優れた結果を示しており、注釈の必要性を軽減することができます。しかし、そのような生成モデルを新しいドメインに採用しながら、視線や頭のポーズの方向など、さまざまな画像属性をきめ細かく制御する能力を維持することは、困難な問題でした。この論文では、CUDA-GHR を提案します。CUDA-GHR は、人の外観に関連する要因を維持しながら、視線と頭の姿勢の方向をきめ細かく制御できる教師なしドメイン適応フレームワークです。私たちのフレームワークは、ラベルが豊富なソース ドメインとラベルのないターゲット ドメインを利用して、新しいドメインに適応し、外観、視線の方向、頭の向きなどの視覚的属性を解きほぐすことを同時に学習します。ベンチマーク データセットに関する広範な実験は、提案された方法が定量的評価と定性的評価の両方で最先端の手法よりも優れていることを示しています。さらに、ターゲット ドメインで生成された画像とラベルのペアが、視線と頭の姿勢の推定というダウンストリーム タスクの事前トレーニング ネットワークに有効であることを示します。ソース コードと事前トレーニング済みのモデルは、https://github.com/jswati31/cuda-ghr で入手できます。
The robustness of gaze and head pose estimation models is highly dependent on the amount of labeled data. Recently, generative modeling has shown excellent results in generating photo-realistic images, which can alleviate the need for annotations. However, adopting such generative models to new domains while maintaining their ability to provide fine-grained control over different image attributes, e.g. , gaze and head pose directions, has been a challenging problem. This paper proposes CUDA-GHR, an unsupervised domain adaptation framework that enables fine-grained control over gaze and head pose directions while preserving the appearance-related factors of the person. Our framework simultaneously learns to adapt to new domains and disentangle visual attributes such as appearance, gaze direction, and head orientation by utilizing a label-rich source domain and an unlabeled target domain. Extensive experiments on the benchmarking datasets show that the proposed method can outperform state-of-the-art techniques on both quantitative and qualitative evaluations. Furthermore, we demonstrate the effectiveness of generated image-label pairs in the target domain for pretraining networks for the downstream task of gaze and head pose estimation. The source code and pre-trained models are available at https://github.com/jswati31/cuda-ghr.