運転映像による交通事故予測は、事故発生の早期警戒を目的とし、安全運転の意思決定を支援します。以前の研究は通常、オブジェクト レベルのコンテキストの時空間相関に集中していましたが、固有のロングテール データ分布にうまく適合せず、深刻な環境変化に対して脆弱でした。この作業では、モデルのトレーニングを容易にするために、視覚的観察とドライバーの注意に対する人間にヒントを得たテキスト記述の認識を明示的に活用する認知事故予測 (CAP) メソッドを提案します。特に、テキストによる説明は、交通シーンの主要なコンテキストに対して緻密なセマンティックな説明のガイダンスを提供し、ドライバーの注意は、安全運転と密接に関連する重要な領域に集中する牽引力を提供します。 CAP は、注意深いテキストからビジョンへのシフト融合モジュール、注意深いシーン コンテキスト転送モジュール、およびドライバーの注意誘導による事故予測モジュールによって定式化されます。これらのモジュールのアテンション メカニズムを活用して、事故予測のコア セマンティック キューを調べます。 CAP をトレーニングするために、既存の自己収集された DADA-2000 データセット (フレームごとにドライバーの注意を喚起したもの) を拡張し、事故前の視覚的観察に関する事実に基づくテキストの説明をさらに追加しました。さらに、219 万フレームを超える 11,727 の実際の事故ビデオ (CAP-DATA と呼ばれる) と、ラベル付けされた事実 - 効果 - 理由 - 内省の説明と一時的な事故フレーム ラベルで構成される新しい大規模なベンチマークを構築します。大規模な実験に基づいて、最先端のアプローチと比較して CAP の優位性が検証されます。コード、CAP-DATA、およびすべての結果は、https://github.com/JWFanggit/LOTVS-CAP でリリースされます。
Traffic accident prediction in driving videos aims to provide an early warning of the accident occurrence, and supports the decision making of safe driving systems. Previous works usually concentrate on the spatial-temporal correlation of object-level context, while they do not fit the inherent long-tailed data distribution well and are vulnerable to severe environmental change. In this work, we propose a Cognitive Accident Prediction (CAP) method that explicitly leverages human-inspired cognition of text description on the visual observation and the driver attention to facilitate model training. In particular, the text description provides a dense semantic description guidance for the primary context of the traffic scene, while the driver attention provides a traction to focus on the critical region closely correlating with safe driving. CAP is formulated by an attentive text-to-vision shift fusion module, an attentive scene context transfer module, and the driver attention guided accident prediction module. We leverage the attention mechanism in these modules to explore the core semantic cues for accident prediction. In order to train CAP, we extend an existing self-collected DADA-2000 dataset (with annotated driver attention for each frame) with further factual text descriptions for the visual observations before the accidents. Besides, we construct a new large-scale benchmark consisting of 11,727 in-the-wild accident videos with over 2.19 million frames (named as CAP-DATA) together with labeled fact-effect-reason-introspection description and temporal accident frame label. Based on extensive experiments, the superiority of CAP is validated compared with state-of-the-art approaches. The code, CAP-DATA, and all results will be released in https://github.com/JWFanggit/LOTVS-CAP.