自律型車両が日常の交通における人間のジェスチャーを理解し、反応できるようにするための共同カメラとレーダーのアプローチを提示します。最初に、レーダー データを PointNet で処理し、続いて時空間多層パーセプトロン (stMLP) を処理します。これとは別に、人体のポーズがカメラ フレームから抽出され、別の stMLP ネットワークで処理されます。各モダリティの補助損失を含む、両方のモダリティの融合ニューラル ネットワークを提案します。収集したデータセットを使用した実験では、2 つのモダリティによるジェスチャ認識の利点を示します。悪天候に動機付けられて、センサーの1つが機能を欠いている場合にも有望なパフォーマンスを示します.
We present a joint camera and radar approach to enable autonomous vehicles to understand and react to human gestures in everyday traffic. Initially, we process the radar data with a PointNet followed by a spatio-temporal multilayer perceptron (stMLP). Independently, the human body pose is extracted from the camera frame and processed with a separate stMLP network. We propose a fusion neural network for both modalities, including an auxiliary loss for each modality. In our experiments with a collected dataset, we show the advantages of gesture recognition with two modalities. Motivated by adverse weather conditions, we also demonstrate promising performance when one of the sensors lacks functionality.