arXiv reaDer
眼球領域セグメンテーションと自己監視マルチストリーム学習による視線推定
Gaze Estimation with Eye Region Segmentation and Self-Supervised Multistream Learning
視線推定のためのロバストな目の表現を学習する新しいマルチストリームネットワークを提示します。まず、シミュレータを使用して、目に見える眼球と虹彩の詳細を示す眼球領域マスクを含む合成データセットを作成します。次に、U-Netタイプのモデルを使用して目の領域のセグメンテーションを実行します。このモデルを後で使用して、実際の目の画像の目の領域のマスクを生成します。次に、一般化された目の表現を学習するために、自己監視型の対照学習を使用して、実領域で目の画像エンコーダーを事前トレーニングします。最後に、この事前トレーニングされた目のエンコーダーは、目に見える眼球領域と虹彩用の2つの追加のエンコーダーとともに、マルチストリームフレームワークで並行して使用され、実世界の画像から視線推定のための顕著な特徴を抽出します。 2つの異なる評価設定でEYEDIAPデータセットに対するメソッドのパフォーマンスを示し、このデータセットの既存のすべてのベンチマークを上回る最先端の結果を達成します。また、トレーニングに使用されるさまざまな量のラベル付きデータに関して、自己監視型ネットワークの堅牢性を検証するために追加の実験を実施します。
We present a novel multistream network that learns robust eye representations for gaze estimation. We first create a synthetic dataset containing eye region masks detailing the visible eyeball and iris using a simulator. We then perform eye region segmentation with a U-Net type model which we later use to generate eye region masks for real-world eye images. Next, we pretrain an eye image encoder in the real domain with self-supervised contrastive learning to learn generalized eye representations. Finally, this pretrained eye encoder, along with two additional encoders for visible eyeball region and iris, are used in parallel in our multistream framework to extract salient features for gaze estimation from real-world images. We demonstrate the performance of our method on the EYEDIAP dataset in two different evaluation settings and achieve state-of-the-art results, outperforming all the existing benchmarks on this dataset. We also conduct additional experiments to validate the robustness of our self-supervised network with respect to different amounts of labeled data used for training.
updated: Wed Dec 15 2021 04:44:45 GMT+0000 (UTC)
published: Wed Dec 15 2021 04:44:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト