arXiv reaDer
GAN潜在学習によるマルチビュービデオコーディング
Multi-View Video Coding with GAN Latent Learning
複数の視点を導入すると、必然的にビデオシーンを保存および送信するためのビットレートが増加します。圧縮されたビットレートを削減するために、研究者は圧縮および配信中に中間の視点をスキップし、最終的にサイド情報(SI)を使用してそれらを再構築するように開発しました。一般に、深度マップはSIを構築するために利用できます。ただし、再構築が不正確であるか、ビットレートが高いと、パフォーマンスが低下します。本論文では、Generative Adversarial Network(GAN)のSIに基づくマルチビュービデオコーディングを提案する。エンコーダーでは、時空間エピポーラ平面画像(EPI)を構築し、さらに畳み込みネットワークを利用して、GANの潜在コードをSIとして抽出します。一方、デコーダー側では、SIと隣接する視点を組み合わせて、GANのジェネレーターによって中間ビューを再構築します。特に、再構築の品質とビットレートのオーバーヘッドの間の最適なトレードオフを実現するために、再構築のコストとSIエントロピーの共同エンコーダ制約を設定します。実験では、最先端の方法と比較して、大幅に改善されたレート歪み(RD)パフォーマンスが示されています。
The introduction of multiple viewpoints inevitably increases the bitrates to store and transmit video scenes. To reduce the compressed bitrates, researchers have developed to skip intermediate viewpoints during compression and delivery, and finally reconstruct them with Side Information (SI). Generally, the depth maps can be utilized to construct SI; however, it shows inferior performance with inaccurate reconstruction or high bitrates. In this paper, we propose a multi-view video coding based on SI of Generative Adversarial Network (GAN). At the encoder, we construct a spatio-temporal Epipolar Plane Image (EPI) and further utilize convolutional network to extract the latent code of GAN as SI; while at the decoder side, we combine the SI and adjacent viewpoints to reconstruct intermediate views by the generator of GAN. In particular, we set a joint encoder constraint of reconstruction cost and SI entropy, in order to achieve an optimal tradeoff between reconstruction quality and bitrate overhead. Experiments show a significantly improved Rate-Distortion (RD) performance compared with the state-of-the-art methods.
updated: Sat May 07 2022 08:52:54 GMT+0000 (UTC)
published: Sat May 07 2022 08:52:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト