arXiv reaDer
MTGLS: Multi-Task Gaze Estimation with Limited Supervision
大規模なラベル付きデータが利用できないため、深いCNNの場合でも、ロバストな視線推定は困難な作業です。さらに、注視注釈は時間のかかるプロセスであり、特別なハードウェア設定が必要です。 MTGLSを提案します。これは、豊富に利用可能な注釈なしの顔画像データを活用する、限定的な監視を備えたマルチタスク注視推定フレームワークです。 MTGLSは、既製の顔画像分析モデルから知識を抽出し、3つの補完的な補助信号によって導かれる人間の目の強力な特徴表現を学習します。(a)ローカライズされた瞳孔の視線(つまり疑似視線)顔のランドマーク、(b)オイラー角度によって与えられる頭のポーズ、および(c)眼帯の向き(左/右目)。監視信号に固有のノイズを克服するために、MTGLSはさらにノイズ分布モデリングアプローチを組み込んでいます。私たちの実験結果は、MTGLSが、さまざまなデータセットで一貫して良好に機能する高度に一般化された表現を学習することを示しています。私たちが提案するフレームワークは、CAVEの教師なし最先端(6.43%)、Gaze360(6.59%)データセットの教師なし最先端メソッドよりも優れています。
Robust gaze estimation is a challenging task, even for deep CNNs, due to the non-availability of large-scale labeled data. Moreover, gaze annotation is a time-consuming process and requires specialized hardware setups. We propose MTGLS: a Multi-Task Gaze estimation framework with Limited Supervision, which leverages abundantly available non-annotated facial image data. MTGLS distills knowledge from off-the-shelf facial image analysis models, and learns strong feature representations of human eyes, guided by three complementary auxiliary signals: (a) the line of sight of the pupil (i.e. pseudo-gaze) defined by the localized facial landmarks, (b) the head-pose given by Euler angles, and (c) the orientation of the eye patch (left/right eye). To overcome inherent noise in the supervisory signals, MTGLS further incorporates a noise distribution modelling approach. Our experimental results show that MTGLS learns highly generalized representations which consistently perform well on a range of datasets. Our proposed framework outperforms the unsupervised state-of-the-art on CAVE (by 6.43%) and even supervised state-of-the-art methods on Gaze360 (by 6.59%) datasets.
updated: Sat Oct 23 2021 00:20:23 GMT+0000 (UTC)
published: Sat Oct 23 2021 00:20:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト