視線と頭のポーズの推定モデルの堅牢性は、ラベル付けされたデータの量に大きく依存します。最近、生成モデリングは、写実的な画像の生成において優れた結果を示しており、ラベル付けされたデータの必要性を軽減することができます。ただし、このような生成モデルを新しいドメインに採用する一方で、視線や頭のポーズの方向など、さまざまな画像属性をきめ細かく制御する機能を維持することは、困難な問題でした。この論文では、人の外見に関連する要素を維持しながら、視線と頭のポーズの方向をきめ細かく制御できる教師なしドメイン適応フレームワークであるCUDA-GHRを提案します。私たちのフレームワークは、ラベルが豊富なソースドメインとラベルのないターゲットドメインを利用することで、新しいドメインに適応し、外観、視線方向、頭の向きなどの画像属性を解きほぐすことを同時に学習します。ベンチマークデータセットに関する広範な実験は、提案された方法が、定量的評価と定性的評価の両方で最先端の技術よりも優れていることを示しています。さらに、ターゲットドメインで生成された画像とラベルのペアが効果的に知識を伝達し、ダウンストリームタスクのパフォーマンスを向上させることを示します。
The robustness of gaze and head pose estimation models is highly dependent on the amount of labeled data. Recently, generative modeling has shown excellent results in generating photo-realistic images, which can alleviate the need for labeled data. However, adopting such generative models to new domains while maintaining their ability to provide fine-grained control over different image attributes, e.g., gaze and head pose directions, has been a challenging problem. This paper proposes CUDA-GHR, an unsupervised domain adaptation framework that enables fine-grained control over gaze and head pose directions while preserving the appearance-related factors of the person. Our framework simultaneously learns to adapt to new domains and disentangle image attributes such as appearance, gaze direction, and head orientation by utilizing a label-rich source domain and an unlabeled target domain. Extensive experiments on the benchmarking datasets show that the proposed method can outperform state-of-the-art techniques on both quantitative and qualitative evaluations. Furthermore, we show that the generated image-label pairs in the target domain effectively transfer knowledge and boost the downstream tasks' performance.