自動運転の正確な歩行者方位推定は、衝突回避や事前警告などの安全対策の基礎となる、関連する環境で自我車両が歩行者の意図を取得するのに役立ちます。ただし、歩行者のサイズが比較的小さく、高レベルの変形があるため、一般的な歩行者方向推定モデルは十分な包括的な情報を抽出できず、そのため、特に物体や関連環境の深度情報を取得できない単眼のパフォーマンスが制限されます。本論文では、FFNetと呼ばれる新しい単眼歩行者方向推定モデルを提案します。カメラキャプチャとは別に、このモデルは、向きとそれらの間の論理関係に従って、歩行者の2Dおよび3Dの寸法を他の2つの入力として追加します。歩行者の2Dおよび3Dの寸法は、カメラキャプチャから決定され、方向推定器に接続された2つのフィードフォワードリンクを介してさらに利用されます。フィードフォワードリンクは、提案されたモデルのネットワーク構造の論理性と解釈性を強化します。実験により、提案されたモデルは、同一のトレーニングプロセスの後、ほとんどの最先端のモデルよりも少なくとも1.72%AOS増加していることがわかります。このモデルは、KITTIデータセットの方向推定評価においても競争力のある結果をもたらします。
Accurate pedestrian orientation estimation of autonomous driving helps the ego vehicle obtain the intentions of pedestrians in the related environment, which are the base of safety measures such as collision avoidance and prewarning. However, because of relatively small sizes and high-level deformation of pedestrians, common pedestrian orientation estimation models fail to extract sufficient and comprehensive information from them, thus having their performance restricted, especially monocular ones which fail to obtain depth information of objects and related environment. In this paper, a novel monocular pedestrian orientation estimation model, called FFNet, is proposed. Apart from camera captures, the model adds the 2D and 3D dimensions of pedestrians as two other inputs according to the logic relationship between orientation and them. The 2D and 3D dimensions of pedestrians are determined from the camera captures and further utilized through two feedforward links connected to the orientation estimator. The feedforward links strengthen the logicality and interpretability of the network structure of the proposed model. Experiments show that the proposed model has at least 1.72% AOS increase than most state-of-the-art models after identical training processes. The model also has competitive results in orientation estimation evaluation on KITTI dataset.