arXiv reaDer
H2-Stereo:高速・高解像度立体映像システム
H2-Stereo: High-Speed, High-Resolution Stereoscopic Video System
高速、高解像度の立体視 (H2-Stereo) ビデオにより、動的な 3D コンテンツを細かい粒度で知覚できます。ただし、H2-Stereo ビデオの取得は、市販のカメラでは依然として困難です。既存の空間超解像または時間フレーム補間方法は、それぞれ時間的または空間的詳細を欠く妥協されたソリューションを提供します。この問題を軽減するために、デュアル カメラ システムを提案します。このシステムでは、1 台のカメラが高空間解像度の低フレーム レート (HSR-LFR) ビデオを豊富な空間詳細でキャプチャし、もう 1 台のカメラが低空間解像度の高フレーム レートをキャプチャします。 -滑らかな一時的な詳細でビデオをレート (LSR-HFR) します。次に、クロスカメラの冗長性を利用して両方のカメラ ビューを高時空間解像度 (HSTR) に拡張し、H2 ステレオ ビデオを効果的に再構築する学習情報融合ネットワーク (LIFnet) を考案します。視差ネットワークを利用して、大きな視差シーンでもビュー間で時空間情報を転送します。これに基づいて、LSR-HFRビューの視差ガイド付きフローベースワーピングとHSR-LFRビューの補完ワーピングを提案します。 HSR-LFRビューでのオクルージョンによるワーピングゴーストとホールを最小限に抑えるために、フィーチャドメインでのマルチスケールフュージョン法が提案されています。 LIFnet は、YouTube から収集した高品質のステレオ ビデオ データセットを使用して、エンド ツー エンドの方法でトレーニングされます。広範な実験により、私たちのモデルは、合成データのビューとカメラでキャプチャされた実際のデータの両方のビューに対して、既存の最先端の方法よりも優れていることが実証されています。アブレーション研究では、時空間解像度、カメラのベースライン、カメラの非同期化、長時間/短時間の露出、アプリケーションなど、システムのさまざまな側面を調査して、潜在的なアプリケーションの能力を完全に理解します。
High-speed, high-resolution stereoscopic (H2-Stereo) video allows us to perceive dynamic 3D content at fine granularity. The acquisition of H2-Stereo video, however, remains challenging with commodity cameras. Existing spatial super-resolution or temporal frame interpolation methods provide compromised solutions that lack temporal or spatial details, respectively. To alleviate this problem, we propose a dual camera system, in which one camera captures high-spatial-resolution low-frame-rate (HSR-LFR) videos with rich spatial details, and the other captures low-spatial-resolution high-frame-rate (LSR-HFR) videos with smooth temporal details. We then devise a Learned Information Fusion network (LIFnet) that exploits the cross-camera redundancies to enhance both camera views to high spatiotemporal resolution (HSTR) for reconstructing the H2-Stereo video effectively. We utilize a disparity network to transfer spatiotemporal information across views even in large disparity scenes, based on which, we propose disparity-guided flow-based warping for LSR-HFR view and complementary warping for HSR-LFR view. A multi-scale fusion method in feature domain is proposed to minimize occlusion-induced warping ghosts and holes in HSR-LFR view. The LIFnet is trained in an end-to-end manner using our collected high-quality Stereo Video dataset from YouTube. Extensive experiments demonstrate that our model outperforms existing state-of-the-art methods for both views on synthetic data and camera-captured real data with large disparity. Ablation studies explore various aspects, including spatiotemporal resolution, camera baseline, camera desynchronization, long/short exposures and applications, of our system to fully understand its capability for potential applications.
updated: Thu Aug 04 2022 04:06:01 GMT+0000 (UTC)
published: Thu Aug 04 2022 04:06:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト