ボケ効果は、芸術的で審美的な写真をレンダリングするための写真撮影で最も望ましい効果の1つです。通常、この効果を生成するには、さまざまな絞りとシャッターの設定と特定の写真撮影スキルを備えたデジタル一眼レフカメラが必要です。スマートフォンでは、計算手法と追加のセンサーを使用して、物理的なレンズとセンサーの制限を克服し、そのような効果を実現します。既存の方法のほとんどは、シーンの詳細な深度推定のために追加のセンサーのデータまたは事前トレーニング済みネットワークを利用し、場合によってはポートレートセグメンテーション事前トレーニング済みネットワークモジュールを使用して画像内の顕著なオブジェクトをセグメント化します。これらの理由により、ネットワークには多くのパラメータがあり、ランタイムが集中し、ミッドレンジデバイスで実行できなくなります。この論文では、単眼カメラからキャプチャされた画像の直接ボケ効果レンダリングに、エンドツーエンドのディープマルチスケール階層ネットワーク(DMSHN)モデルを使用しました。このような効果の知覚品質をさらに向上させるために、2つのDMSHNモジュールで構成されるスタックモデルも提案されています。私たちのモデルは、単眼深度推定または顕著性検出のために事前にトレーニングされたネットワークモジュールに依存していないため、モデルのサイズと実行時間を大幅に削減します。スタックDMSHNは、大規模なEBBで最先端の結果を実現します。 HD品質の画像の処理において、現在の最先端モデルと比較して実行時間が約6分の1のデータセット。
The Bokeh Effect is one of the most desirable effects in photography for rendering artistic and aesthetic photos. Usually, it requires a DSLR camera with different aperture and shutter settings and certain photography skills to generate this effect. In smartphones, computational methods and additional sensors are used to overcome the physical lens and sensor limitations to achieve such effect. Most of the existing methods utilized additional sensor's data or pretrained network for fine depth estimation of the scene and sometimes use portrait segmentation pretrained network module to segment salient objects in the image. Because of these reasons, networks have many parameters, become runtime intensive and unable to run in mid-range devices. In this paper, we used an end-to-end Deep Multi-Scale Hierarchical Network (DMSHN) model for direct Bokeh effect rendering of images captured from the monocular camera. To further improve the perceptual quality of such effect, a stacked model consisting of two DMSHN modules is also proposed. Our model does not rely on any pretrained network module for Monocular Depth Estimation or Saliency Detection, thus significantly reducing the size of model and run time. Stacked DMSHN achieves state-of-the-art results on a large scale EBB! dataset with around 6x less runtime compared to the current state-of-the-art model in processing HD quality images.