arXiv reaDer
単一の画像からの3D Ken Burnsエフェクト
3D Ken Burns Effect from a Single Image
  Ken Burnsエフェクトを使用すると、仮想カメラのスキャンとズームで静止画像をアニメーション化できます。視差を追加すると、3D Ken Burns効果が得られ、非常に説得力のある結果が得られます。このような効果を手動で作成するには時間がかかり、高度な編集スキルが必要です。ただし、既存の自動方法では、さまざまな視点からの複数の入力画像が必要です。このホワイトペーパーでは、1つの画像から3D Ken Burnsエフェクトを合成するフレームワークを紹介し、カメラを制御するユーザーによる完全自動モードとインタラクティブモードの両方をサポートしています。私たちのフレームワークは、深度合成パイプラインを最初に活用し、ビュー合成タスクに適したシーン深度を推定します。幾何学的歪み、セマンティック歪み、不正確な深度境界などの既存の深度推定方法の制限に対処するために、深度予測用のセマンティック認識ニューラルネットワークを開発し、その推定をセグメンテーションベースの深度調整プロセスと組み合わせ、改良を採用しますオブジェクト境界での正確な深度予測を容易にするニューラルネットワーク。この深度推定値に従って、フレームワークは入力画像をポイントクラウドにマップし、対応するカメラ位置からポイントクラウドをレンダリングすることにより、結果のビデオフレームを合成します。幾何学的および時間的にコヒーレントな合成結果を維持しながらディスオクルージョンに対処するために、コンテキストを意識したカラーおよび深度のインペインティングを利用して、カメラパスの極端なビューで欠落している情報を入力し、ポイントクラウドのシーンジオメトリを拡張します。多種多様な画像コンテンツを使用した実験により、本方法が現実的な合成結果を可能にすることが示されています。私たちの研究は、3D Ken Burnsエフェクト作成の既存のソリューションと比較して、ユーザーがほとんど労力を必要とせずにユーザーがより良い結果を達成できることを示しています。
The Ken Burns effect allows animating still images with a virtual camera scan and zoom. Adding parallax, which results in the 3D Ken Burns effect, enables significantly more compelling results. Creating such effects manually is time-consuming and demands sophisticated editing skills. Existing automatic methods, however, require multiple input images from varying viewpoints. In this paper, we introduce a framework that synthesizes the 3D Ken Burns effect from a single image, supporting both a fully automatic mode and an interactive mode with the user controlling the camera. Our framework first leverages a depth prediction pipeline, which estimates scene depth that is suitable for view synthesis tasks. To address the limitations of existing depth estimation methods such as geometric distortions, semantic distortions, and inaccurate depth boundaries, we develop a semantic-aware neural network for depth prediction, couple its estimate with a segmentation-based depth adjustment process, and employ a refinement neural network that facilitates accurate depth predictions at object boundaries. According to this depth estimate, our framework then maps the input image to a point cloud and synthesizes the resulting video frames by rendering the point cloud from the corresponding camera positions. To address disocclusions while maintaining geometrically and temporally coherent synthesis results, we utilize context-aware color- and depth-inpainting to fill in the missing information in the extreme views of the camera path, thus extending the scene geometry of the point cloud. Experiments with a wide variety of image content show that our method enables realistic synthesis results. Our study demonstrates that our system allows users to achieve better results while requiring little effort compared to existing solutions for the 3D Ken Burns effect creation.
updated: Thu Sep 12 2019 06:55:07 GMT+0000 (UTC)
published: Thu Sep 12 2019 06:55:07 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト