Sat2Vid: Street-view Panoramic Video Synthesis from a Single Satellite Image
単一の衛星画像とカメラの軌跡から、時間的および幾何学的に一貫したストリートビューパノラマビデオを合成するための新しい方法を紹介します。既存のクロスビュー合成アプローチは画像に焦点を合わせていますが、そのような場合のビデオ合成はまだ十分な注目を集めていません。幾何学的および時間的一貫性のために、私たちのアプローチは、シーンの3Dポイントクラウド表現を明示的に作成し、衛星ビューから推測される幾何学的シーン構成を反映するフレーム全体で密な3D-2D対応を維持します。 3D空間での合成については、2つの砂時計モジュールを使用してカスケードネットワークアーキテクチャを実装し、セマンティクスとクラスごとの潜在ベクトルからポイントごとの粗い特徴と細かい特徴を生成し、フレームへの投影とアップサンプリングモジュールを使用して、最終的な現実を取得します。ビデオ。計算された対応を活用することにより、生成されたストリートビュービデオフレームは3D幾何学的シーン構造に準拠し、時間的な一貫性を維持します。定性的および定量的実験は、時間的一貫性または現実的な外観のいずれかを欠いている他の最先端の合成アプローチと比較して優れた結果を示しています。私たちの知る限り、私たちの仕事はクロスビュー画像をビデオに合成する最初の仕事です。
We present a novel method for synthesizing both temporally and geometrically consistent street-view panoramic video from a single satellite image and camera trajectory. Existing cross-view synthesis approaches focus on images, while video synthesis in such a case has not yet received enough attention. For geometrical and temporal consistency, our approach explicitly creates a 3D point cloud representation of the scene and maintains dense 3D-2D correspondences across frames that reflect the geometric scene configuration inferred from the satellite view. As for synthesis in the 3D space, we implement a cascaded network architecture with two hourglass modules to generate point-wise coarse and fine features from semantics and per-class latent vectors, followed by projection to frames and an upsampling module to obtain the final realistic video. By leveraging computed correspondences, the produced street-view video frames adhere to the 3D geometric scene structure and maintain temporal consistency. Qualitative and quantitative experiments demonstrate superior results compared to other state-of-the-art synthesis approaches that either lack temporal consistency or realistic appearance. To the best of our knowledge, our work is the first one to synthesize cross-view images to video.
updated: Thu May 06 2021 03:02:44 GMT+0000 (UTC)
published: Fri Dec 11 2020 20:22:38 GMT+0000 (UTC)
