arXiv reaDer
隠れマルコフモデル推論によるビデオ超解像のためのカメラ生データの活用
Exploit Camera Raw Data for Video Super-Resolution via Hidden Markov Model Inference
私たちの知る限り、既存の深層学習ベースのビデオ超解像(VSR)メソッドは、カメラシステムの画像信号プロセッサ(ISP)によって生成されたビデオを入力として排他的に使用します。このような方法は、1)ISPでの非可逆操作によって発生する情報損失のために本質的に最適ではなく、2)VSRが実際にISPの前処理ユニットとして機能する実際のイメージングパイプラインと矛盾します。この問題に対処するために、トレーニング、検証、およびテスト用に慎重に構築されたRawビデオデータセット(RawVD)を使用して、カメラセンサーデータを直接活用できる新しいVSRメソッドを提案します。この方法は、Successive Deep Inference(SDI)モジュールと再構成モジュールなどで構成されています。 SDIモジュールは、隠れマルコフモデル(HMM)推論の正規分解結果によって提案されたアーキテクチャ原理に従って設計されています。変形可能な畳み込みを使用してペアワイズ特徴融合を繰り返し実行することにより、ターゲットの高解像度フレームを推定します。精巧に設計されたアテンションベースの残余高密度ブロック(ARDB)で構築された再構成モジュールは、1)融合された特徴を洗練し、2)正確な色補正のための空間固有の変換を生成するために必要な色情報を学習する目的を果たします。広範な実験により、カメラの生データの有益性、ネットワークアーキテクチャの有効性、および超解像プロセスと色補正プロセスの分離により、提案された方法が最先端技術と比較して優れたVSR結果を達成することが実証されています。特定のカメラISPに適合させることができます。コードとデータセットはhttps://github.com/proteus1991/RawVSRで入手できます。
To the best of our knowledge, the existing deep-learning-based Video Super-Resolution (VSR) methods exclusively make use of videos produced by the Image Signal Processor (ISP) of the camera system as inputs. Such methods are 1) inherently suboptimal due to information loss incurred by non-invertible operations in ISP, and 2) inconsistent with the real imaging pipeline where VSR in fact serves as a pre-processing unit of ISP. To address this issue, we propose a new VSR method that can directly exploit camera sensor data, accompanied by a carefully built Raw Video Dataset (RawVD) for training, validation, and testing. This method consists of a Successive Deep Inference (SDI) module and a reconstruction module, among others. The SDI module is designed according to the architectural principle suggested by a canonical decomposition result for Hidden Markov Model (HMM) inference; it estimates the target high-resolution frame by repeatedly performing pairwise feature fusion using deformable convolutions. The reconstruction module, built with elaborately designed Attention-based Residual Dense Blocks (ARDBs), serves the purpose of 1) refining the fused feature and 2) learning the color information needed to generate a spatial-specific transformation for accurate color correction. Extensive experiments demonstrate that owing to the informativeness of the camera raw data, the effectiveness of the network architecture, and the separation of super-resolution and color correction processes, the proposed method achieves superior VSR results compared to the state-of-the-art and can be adapted to any specific camera-ISP. Code and dataset are available at https://github.com/proteus1991/RawVSR.
updated: Tue Jan 05 2021 04:03:55 GMT+0000 (UTC)
published: Mon Aug 24 2020 21:14:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト