個人間の解剖学的差異は、個人に依存しない視線推定ネットワークの精度を制限します。しかし、より高い品質を必要とするアプリケーションを有効にするには、視線エラーをさらに低くする必要があります。視線ネットワークをパーソナライズすることで、理想的にはキャリブレーションサンプルがほとんどないことで、さらに向上できます。ただし、過剰にパラメーター化されたニューラルネットワークは、すぐに過剰適合する可能性があるため、いくつかの例から学習することはできません。これらの課題を受け入れ、非常に少ない(9以下)キャリブレーションサンプルで個人固有の視線ネットワークを学習するための少数ショット適応GaZE推定(FAZE)の新しいフレームワークを提案します。 FAZEは、メタ学習を使用して訓練された高度に適応可能な注視推定器とともに、解きほぐしエンコーダーデコーダーアーキテクチャーを介して、回転を意識した注視の潜在表現を学習します。新しい人に適応して、わずか3サンプルで大幅なパフォーマンスの向上を実現し、GazeCaptureで3.18度の最先端のパフォーマンスを実現します。これは、従来技術よりも19%向上しています。 https://github.com/NVlabs/few_shot_gazeでコードをオープンソース化します
Inter-personal anatomical differences limit the accuracy of person-independent gaze estimation networks. Yet there is a need to lower gaze errors further to enable applications requiring higher quality. Further gains can be achieved by personalizing gaze networks, ideally with few calibration samples. However, over-parameterized neural networks are not amenable to learning from few examples as they can quickly over-fit. We embrace these challenges and propose a novel framework for Few-shot Adaptive GaZE Estimation (FAZE) for learning person-specific gaze networks with very few (less than or equal to 9) calibration samples. FAZE learns a rotation-aware latent representation of gaze via a disentangling encoder-decoder architecture along with a highly adaptable gaze estimator trained using meta-learning. It is capable of adapting to any new person to yield significant performance gains with as few as 3 samples, yielding state-of-the-art performance of 3.18 degrees on GazeCapture, a 19% improvement over prior art. We open-source our code at https://github.com/NVlabs/few_shot_gaze