arXiv reaDer
視覚言語モデルは自然なビデオから注意力散漫なドライバーの行動を特定できる
Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos
実際の運転シナリオにおいて、注意力散漫の原因となるアクティビティを認識することは、車道上のドライバーと歩行者の両方の安全性と信頼性を確保するために重要です。従来のコンピュータ ビジョン技術は一般にデータ集約的であり、さまざまな脇見運転行動を検出して分類するには大量の注釈付きトレーニング データが必要となるため、その効率と拡張性が制限されます。私たちは、限定された、または注釈付きのトレーニング データにアクセスせずに堅牢なパフォーマンスを示す、一般化されたフレームワークを開発することを目指しています。最近、視覚言語モデルは、脇見運転行為の認識などのタスク固有の学習に適応できる大規模な視覚テキストの事前トレーニングを提供しています。 CLIP などの視覚言語事前トレーニング モデルは、自然言語ガイドによる視覚表現の学習において大きな可能性を示しています。この論文では、自然な運転画像やビデオからドライバーの注意散漫を特定する、CLIP ベースのドライバー活動認識アプローチを提案します。 CLIP のビジョン埋め込みは、ゼロショット転送とタスクベースの微調整を提供し、運転中のビデオ データから気を散らす活動を分類できます。私たちの結果は、このフレームワークが、2 つの公開データセットでドライバーの状態を予測するためのゼロショット転送とビデオベースの CLIP で最先端のパフォーマンスを提供することを示しています。私たちは、わき見運転の検出と分類タスクのために、CLIP の視覚的表現に基づいて開発されたフレームベースとビデオベースの両方のフレームワークを提案し、結果を報告します。
Recognizing the activities, causing distraction, in real-world driving scenarios is critical for ensuring the safety and reliability of both drivers and pedestrians on the roadways. Conventional computer vision techniques are typically data-intensive and require a large volume of annotated training data to detect and classify various distracted driving behaviors, thereby limiting their efficiency and scalability. We aim to develop a generalized framework that showcases robust performance with access to limited or no annotated training data. Recently, vision-language models have offered large-scale visual-textual pretraining that can be adapted to task-specific learning like distracted driving activity recognition. Vision-language pretraining models, such as CLIP, have shown significant promise in learning natural language-guided visual representations. This paper proposes a CLIP-based driver activity recognition approach that identifies driver distraction from naturalistic driving images and videos. CLIP's vision embedding offers zero-shot transfer and task-based finetuning, which can classify distracted activities from driving video data. Our results show that this framework offers state-of-the-art performance on zero-shot transfer and video-based CLIP for predicting the driver's state on two public datasets. We propose both frame-based and video-based frameworks developed on top of the CLIP's visual representation for distracted driving detection and classification task and report the results.
updated: Thu Jun 22 2023 23:11:43 GMT+0000 (UTC)
published: Fri Jun 16 2023 20:02:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト