交通事故は毎年百万人以上の死を引き起こし、その大部分は飲酒運転に起因しています。車両の自動化された酔っ払い運転者検出システムは、事故や関連する経済的コストを削減するのに役立ちます。既存のソリューションには、心電図、赤外線カメラ、人工呼吸器などの特別な機器が必要です。この作業では、オンラインソースから取得した酔って冷静な人々の視聴覚データを含むDIF(知覚された酔った顔のデータセット)と呼ばれる新しいデータセットを提案します。私たちの知る限り、これは自動二峰性非侵襲性中毒検出の最初の仕事です。畳み込みニューラルネットワーク(CNN)とディープニューラルネットワーク(DNN)は、それぞれビデオとオーディオのベースラインを計算するためのトレーニングを受けています。 3D CNNは、ビデオの時空間変化を活用するために使用されます。従来の3D畳み込みブロックの単純なバリエーションは、空間チャネルと時間チャネル間の非線形性の誘導に基づいて提案されています。広範な実験を実施して、アプローチとベースラインを検証します。
Traffic accidents cause over a million deaths every year, of which a large fraction is attributed to drunk driving. An automated intoxicated driver detection system in vehicles will be useful in reducing accidents and related financial costs. Existing solutions require special equipment such as electrocardiogram, infrared cameras or breathalyzers. In this work, we propose a new dataset called DIF (Dataset of perceived Intoxicated Faces) which contains audio-visual data of intoxicated and sober people obtained from online sources. To the best of our knowledge, this is the first work for automatic bimodal non-invasive intoxication detection. Convolutional Neural Networks (CNN) and Deep Neural Networks (DNN) are trained for computing the video and audio baselines, respectively. 3D CNN is used to exploit the Spatio-temporal changes in the video. A simple variation of the traditional 3D convolution block is proposed based on inducing non-linearity between the spatial and temporal channels. Extensive experiments are performed to validate the approach and baselines.