arXiv reaDer
飛行機の揺れ: 不安定な写真からの教師なし深度推定
Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized Photography
最新のモバイル バースト写真パイプラインは、フレームの短いシーケンスをキャプチャしてマージし、強化された画像を復元しますが、キャプチャしたシーンの 3D の性質をしばしば無視し、画像間のピクセル モーションを 2D 集約の問題として扱います。 2 秒間のシーケンスでキャプチャされた 12 メガピクセルの RAW フレーム 42 枚の「ロングバースト」では、自然な手の震えだけで十分な視差情報があり、高品質のシーン深度を回復できることを示しています。この目的のために、ニューラルRGB-D表現をロングバーストデータに適合させ、同時にシーン深度とカメラモーションを推定するテスト時間最適化アプローチを考案しました。平面と深度のモデルはエンドツーエンドでトレーニングされ、トレーニング中にネットワークがどのマルチ解像度ボリューム機能にいつアクセスできるかを制御することで、粗いものから細かいものへの調整を実行します。この方法を実験的に検証し、ハードウェアを追加したり、データの前処理と姿勢推定のステップを分離したりすることなく、幾何学的に正確な深度再構成を実証します。
Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a ''long-burst'', forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.
updated: Mon Mar 27 2023 18:54:46 GMT+0000 (UTC)
published: Thu Dec 22 2022 18:54:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト