Human Visual Attention Prediction Boosts Learning & Performance of Autonomous Driving Agents
  自動運転は、視覚環境の深い理解を必要とするマルチタスクの問題です。エンドツーエンドの自律システムは、さまざまな運転シナリオの動作を徹底的にプログラミングすることなく運転を学習する方法として、ますます関心を集めています。人間が運転するとき、彼らは不必要な詳細をフィルタリングしながら必要な情報を迅速に取得できるように微調整された感覚システムに依存しています。画像内のタスク固有の高関心領域を識別するこの機能は、一般的に自動運転エージェントと機械学習システムにとって有益です。人間の視線パターンと視覚的注意を模倣できるシステムを作成するために、仮想現実環境で人間のドライバーから眼球運動データを収集します。このデータを使用して、運転中に人間が最も見える場所を予測するディープニューラルネットワークをトレーニングします。次に、この訓練されたネットワークの出力を使用して、さまざまなマスキング手法を使用して、駆動画像を選択的にマスクします。最後に、これらのマスクされた画像を入力として使用して、自動運転エージェントが訓練されます。比較すると、生画像とアテンションマスク画像の両方を処理するデュアルブランチアーキテクチャは、他のすべてのモデルよりも大幅に優れており、生でのみトレーニングされた標準のエンドツーエンドモデルと比較して、制御信号予測のエラーを25.5 \%削減します画像。
Autonomous driving is a multi-task problem requiring a deep understanding of the visual environment. End-to-end autonomous systems have attracted increasing interest as a method of learning to drive without exhaustively programming behaviours for different driving scenarios. When humans drive, they rely on a finely tuned sensory system which enables them to quickly acquire the information they need while filtering unnecessary details. This ability to identify task-specific high-interest regions within an image could be beneficial to autonomous driving agents and machine learning systems in general. To create a system capable of imitating human gaze patterns and visual attention, we collect eye movement data from human drivers in a virtual reality environment. We use this data to train deep neural networks predicting where humans are most likely to look when driving. We then use the outputs of this trained network to selectively mask driving images using a variety of masking techniques. Finally, autonomous driving agents are trained using these masked images as input. Upon comparison, we found that a dual-branch architecture which processes both raw and attention-masked images substantially outperforms all other models, reducing error in control signal predictions by 25.5\% compared to a standard end-to-end model trained only on raw images.
