Rolling-Shutter Modelling for Direct Visual-Inertial Odometry
 ローリングシャッターカメラと慣性測定ユニット(IMU)からの測定に基づいて、センサーのセットアップの動きと環境のまばらな3Dジオメトリを推定する直接視覚慣性オドメトリー(VIO)メソッドを提示します。システムの視覚的な部分は、点のまばらなセットで測光バンドル調整を実行します。この直接的なアプローチは、特徴点を抽出せず、コーナーだけでなく、十分な勾配の大きさを持つピクセルを追跡することができます。視覚部分のローリングシャッター効果を無視すると、システムの精度と堅牢性が大幅に低下します。このホワイトペーパーでは、ローリングシャッターモデルをフォトメトリックバンドル調整に組み込みます。これは、最近のキーフレームポーズのセットとスパースポイントセットの逆深度を推定します。 IMU情報は、測定の事前統合を使用して複数のフレーム間で蓄積され、選択したキーフレーム間の追加の制約として最適化に挿入されます。すべてのキーフレームについて、ポーズだけでなく、速度とバイアスも推定して、IMU測定値を修正します。グローバルシャッターカメラを備えたシステムとは異なり、カメラのIMU測定とローリングシャッター効果の両方を使用して、すべての状態の速度とバイアスを推定します。最後に、グローバルシャッターとローリングシャッターの画像、IMUデータ、10種類のシーケンスのグラウンドトゥルースポーズを含む新しいデータセットでシステムを評価し、公開します。評価により、提案手法はローリングシャッターがモデル化されていないシステムよりも優れており、グローバルシャッターデータのグローバルシャッター手法と同様の精度を達成することが示されています。
We present a direct visual-inertial odometry (VIO) method which estimates the motion of the sensor setup and sparse 3D geometry of the environment based on measurements from a rolling-shutter camera and an inertial measurement unit (IMU). The visual part of the system performs a photometric bundle adjustment on a sparse set of points. This direct approach does not extract feature points and is able to track not only corners, but any pixels with sufficient gradient magnitude. Neglecting rolling-shutter effects in the visual part severely degrades accuracy and robustness of the system. In this paper, we incorporate a rolling-shutter model into the photometric bundle adjustment that estimates a set of recent keyframe poses and the inverse depth of a sparse set of points. IMU information is accumulated between several frames using measurement preintegration, and is inserted into the optimization as an additional constraint between selected keyframes. For every keyframe we estimate not only the pose but also velocity and biases to correct the IMU measurements. Unlike systems with global-shutter cameras, we use both IMU measurements and rolling-shutter effects of the camera to estimate velocity and biases for every state. Last, we evaluate our system on a novel dataset that contains global-shutter and rolling-shutter images, IMU data and ground-truth poses for ten different sequences, which we make publicly available. Evaluation shows that the proposed method outperforms a system where rolling shutter is not modelled and achieves similar accuracy to the global-shutter method on global-shutter data.
