移動物体検出(MOD)は、堅牢な自動運転を実現するための重要なタスクです。自動運転車両は、環境内の他の相互作用オブジェクトとの衝突リスクを推定し、オプションの軌道を計算する必要があります。通常、衝突リスクは、意思決定のためにオブジェクトの将来の状態と姿勢を推定する必要があるため、静的オブジェクトよりも移動オブジェクトの方が高くなります。これは、車両の周囲の近距離のオブジェクトにとって特に重要です。通常、このオブジェクトは、シーンの360度ビューをキャプチャする魚眼レンズサラウンドビューシステムによって検出されます。この作業では、自動運転環境でキャプチャされた魚眼画像を使用した移動物体検出のためのCNNアーキテクチャを提案します。モーションジオメトリは非常に非線形であり、魚眼カメラに固有であるため、現在のデータセットの改良版を公開して、さらなる研究を促進します。組み込みの展開を対象とするために、連続するイメージ間で重みを共有する軽量エンコーダーを設計します。提案されたネットワークは、1テラフロップスの車載組み込みシステムで、40%IoUおよび69.5%mIoUの精度で15 fpsで実行されます。
Moving Object Detection (MOD) is an important task for achieving robust autonomous driving. An autonomous vehicle has to estimate collision risk with other interacting objects in the environment and calculate an optional trajectory. Collision risk is typically higher for moving objects than static ones due to the need to estimate the future states and poses of the objects for decision making. This is particularly important for near-range objects around the vehicle which are typically detected by a fisheye surround-view system that captures a 360{\deg view of the scene. In this work, we propose a CNN architecture for moving object detection using fisheye images that were captured in autonomous driving environment. As motion geometry is highly non-linear and unique for fisheye cameras, we will make an improved version of the current dataset public to encourage further research. To target embedded deployment, we design a lightweight encoder sharing weights across sequential images. The proposed network runs at 15 fps on a 1 teraflops automotive embedded system at accuracy of 40% IoU and 69.5% mIoU.