近年、見た目に基づく視線推定の研究が盛んに行われている。ただし、目に見えない頭のポーズに対する汎化パフォーマンスは、依然として既存の方法にとって大きな制限となっています。この研究では、この問題に対処するための、一般化可能なマルチビュー視線推定タスクとビュー間特徴融合方法を提案します。ペア画像に加えて、私たちの方法は追加の入力として 2 台のカメラ間の相対回転行列を受け取ります。提案されたネットワークは、相対回転を制約として使用して回転可能な特徴表現を抽出することを学習し、スタックされた融合モジュールを介して回転可能な特徴を適応的に融合します。このシンプルかつ効率的なアプローチにより、計算コストを大幅に増加させることなく、目に見えない頭のポーズの下で汎化パフォーマンスが大幅に向上します。モデルは、位置を固定せずにカメラのランダムな組み合わせでトレーニングでき、推論中に目に見えないカメラのペアに一般化できます。複数のデータセットを使用した実験を通じて、最先端のドメイン一般化アプローチを含む、ベースライン手法に対する提案手法の利点を実証します。
Appearance-based gaze estimation has been actively studied in recent years. However, its generalization performance for unseen head poses is still a significant limitation for existing methods. This work proposes a generalizable multi-view gaze estimation task and a cross-view feature fusion method to address this issue. In addition to paired images, our method takes the relative rotation matrix between two cameras as additional input. The proposed network learns to extract rotatable feature representation by using relative rotation as a constraint and adaptively fuses the rotatable features via stacked fusion modules. This simple yet efficient approach significantly improves generalization performance under unseen head poses without significantly increasing computational cost. The model can be trained with random combinations of cameras without fixing the positioning and can generalize to unseen camera pairs during inference. Through experiments using multiple datasets, we demonstrate the advantage of the proposed method over baseline methods, including state-of-the-art domain generalization approaches.