ダッシュボードカメラは、毎日膨大な量の運転シーンビデオをキャプチャします。これらのビデオは、速度計や慣性センサーなどからの車両検知データと意図的に結合されており、追加の検知モダリティを無料で提供します。この作業では、運転シナリオでの視覚的表現学習のために、大規模なラベルなしで自然にペアになったデータを活用します。ペアのセンシングデータを持つ単一のフレームから高密度のオプティカルフローを予測するための表現は、エンドツーエンドの自己監視型フレームワークで学習されます。このタスクを成功させるには、ネットワークが自我中心の視点で意味的および幾何学的な知識を学ぶ必要があると仮定します。たとえば、移動中の車両から見られる将来のビューを予測するには、シーンの深度、スケール、およびオブジェクトの動きを理解する必要があります。学習した表現は、詳細なシーンの理解を必要とする他のタスクに役立ち、セマンティックセグメンテーションで競合する教師なし表現よりも優れていることを示します。
Dashboard cameras capture a tremendous amount of driving scene video each day. These videos are purposefully coupled with vehicle sensing data, such as from the speedometer and inertial sensors, providing an additional sensing modality for free. In this work, we leverage the large-scale unlabeled yet naturally paired data for visual representation learning in the driving scenario. A representation is learned in an end-to-end self-supervised framework for predicting dense optical flow from a single frame with paired sensing data. We postulate that success on this task requires the network to learn semantic and geometric knowledge in the ego-centric view. For example, forecasting a future view to be seen from a moving vehicle requires an understanding of scene depth, scale, and movement of objects. We demonstrate that our learned representation can benefit other tasks that require detailed scene understanding and outperforms competing unsupervised representations on semantic segmentation.