インテリジェントな自動運転システムを実現するための有望な戦略は、複雑な運転状況で人間がどのように運転し、道路利用者と対話するかを理解することです。この論文では、自動運転アプリケーション向けの3D対応エゴセントリック時空間相互作用フレームワークを提案します。グラフ畳み込みネットワーク(GCN)は、相互作用モデリング用に考案されています。 GCNに3つの新しい概念を紹介します。まず、エゴセントリックな相互作用を、2つのGCNによってモデル化されたエゴモノとエゴスタッフの相互作用に分解します。両方のGCNで、モノオブジェクト(例:車と歩行者)間の相互作用、およびスタッフオブジェクト間の相互作用(例:車線表示と信号機)をエンコードするために、エゴノードが導入されます。第二に、オブジェクトの3D位置がGCNに明示的に組み込まれて、自己中心的な相互作用をより適切にモデル化します。第三に、GCNでエゴとスタッフの相互作用を実装するために、不規則なオブジェクトの特徴を抽出するMaskAlign操作を提案します。戦術的なドライバーの行動認識に関する提案されたフレームワークを検証します。さまざまな戦術的なドライバーの行動の注釈を備えた最大のデータセットであるHonda Research Institute Driving Datasetを使用して、広範な実験が行われています。私たちのフレームワークは、2つの実験設定のベースラインをそれぞれ3.9%および6.0%大幅に向上させることを示しています。さらに、エゴシングとエゴスタッフの相互作用をエンコードする学習されたアフィニティマトリックスを視覚化し、提案されたフレームワークが相互作用を効果的にキャプチャできることを示します。
To enable intelligent automated driving systems, a promising strategy is to understand how human drives and interacts with road users in complicated driving situations. In this paper, we propose a 3D-aware egocentric spatial-temporal interaction framework for automated driving applications. Graph convolution networks (GCN) is devised for interaction modeling. We introduce three novel concepts into GCN. First, we decompose egocentric interactions into ego-thing and ego-stuff interaction, modeled by two GCNs. In both GCNs, ego nodes are introduced to encode the interaction between thing objects (e.g., car and pedestrian), and interaction between stuff objects (e.g., lane marking and traffic light). Second, objects' 3D locations are explicitly incorporated into GCN to better model egocentric interactions. Third, to implement ego-stuff interaction in GCN, we propose a MaskAlign operation to extract features for irregular objects. We validate the proposed framework on tactical driver behavior recognition. Extensive experiments are conducted using Honda Research Institute Driving Dataset, the largest dataset with diverse tactical driver behavior annotations. Our framework demonstrates substantial performance boost over baselines on the two experimental settings by 3.9% and 6.0%, respectively. Furthermore, we visualize the learned affinity matrices, which encode ego-thing and ego-stuff interactions, to showcase the proposed framework can capture interactions effectively.