arXiv reaDer
GOO: A Dataset for Gaze Object Prediction in Retail Environments
人間が行う最も基本的で情報満載の行動の1つは、オブジェクトを見ることです。ただし、現在の作業の調査では、既存の視線関連のデータセットは、特定の対象オブジェクトの境界ではなく、見ているピクセルのみに注釈を付けていることが明らかになっています。このオブジェクト注釈の欠如は、視線推定研究をさらに進める機会を提供します。この目的のために、注視オブジェクト予測と呼ばれる挑戦的な新しいタスクを提示します。ここでの目標は、人の注視オブジェクトの境界ボックスを予測することです。このタスクで視線ネットワークをトレーニングおよび評価するために、Gaze On Objects(GOO)データセットを提示します。 GOOは、小売環境でオブジェクトを見ている人々の実際の画像(GOO-Real)の小さなサブセットによって補完された、合成画像(GOO Synth)の大規模なセットで構成されています。私たちの仕事は、視線追跡とドメイン適応のタスクで選択された最先端のモデルを再実装して評価することにより、GOOの広範なベースラインを確立します。コードはgithubで入手できます。
One of the most fundamental and information-laden actions humans do is to look at objects. However, a survey of current works reveals that existing gaze-related datasets annotate only the pixel being looked at, and not the boundaries of a specific object of interest. This lack of object annotation presents an opportunity for further advancing gaze estimation research. To this end, we present a challenging new task called gaze object prediction, where the goal is to predict a bounding box for a person's gazed-at object. To train and evaluate gaze networks on this task, we present the Gaze On Objects (GOO) dataset. GOO is composed of a large set of synthetic images (GOO Synth) supplemented by a smaller subset of real images (GOO-Real) of people looking at objects in a retail environment. Our work establishes extensive baselines on GOO by re-implementing and evaluating selected state-of-the art models on the task of gaze following and domain adaptation. Code is available on github.
updated: Tue Jun 22 2021 03:00:55 GMT+0000 (UTC)
published: Sat May 22 2021 18:55:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト