この論文では、歩行者の安全に焦点を当てたエンドツーエンドの将来予測モデルを提示します。具体的には、このモデルでは、車両の視点から記録された以前のビデオフレームを使用して、歩行者が車両の前を横切るかどうかを予測します。この作業の長期的な目標は、防御的な人間のドライバーが行うように行動し、反応する完全に自律的なシステムを設計することです。歩行者と車両の相互作用に焦点を当てます。これは、歩行者の行動が予測ミスをした場合、歩行者に危害を加えるリスクが高いためです。エンドツーエンドモデルは2つのステージで構成されます。最初のステージは、将来のビデオフレームの予測を学習するエンコーダー/デコーダーネットワークです。第2段階は、第1段階の予測フレームを使用して歩行者の将来の行動を予測する深時空間ネットワークです。私たちのシステムは、歩行者の行動予測と自動運転のための共同注意(JAAD)データセットの将来のフレーム予測で最先端の精度を達成します。
In this paper, we present an end-to-end future-prediction model that focuses on pedestrian safety. Specifically, our model uses previous video frames, recorded from the perspective of the vehicle, to predict if a pedestrian will cross in front of the vehicle. The long term goal of this work is to design a fully autonomous system that acts and reacts as a defensive human driver would --- predicting future events and reacting to mitigate risk. We focus on pedestrian-vehicle interactions because of the high risk of harm to the pedestrian if their actions are miss-predicted. Our end-to-end model consists of two stages: the first stage is an encoder/decoder network that learns to predict future video frames. The second stage is a deep spatio-temporal network that utilizes the predicted frames of the first stage to predict the pedestrian's future action. Our system achieves state-of-the-art accuracy on pedestrian behavior prediction and future frames prediction on the Joint Attention for Autonomous Driving (JAAD) dataset.