ビデオ シーンに複数の視点を導入すると、保存と転送に必要なビットレートが必然的に増加します。ビットレートを下げるために、研究者は、圧縮および配信中に中間の視点をスキップし、最終的にサイド情報 (SI) を使用してそれらを再構築する方法を開発しました。通常、深さマップは SI の構築に使用されます。ただし、それらの方法は、再構成の不正確さと本質的に高いビットレートに悩まされています。この論文では、Generative Adversarial Network(GAN)の画像生成機能を活用してSIの再構成精度を向上させる新しい多視点ビデオコーディング方法を提案します。さらに、SI の冗長性をさらに減らすために、隣接する時間的および空間的な視点からの情報を組み込むことを検討します。エンコーダでは、時空間エピポーラ平面画像 (EPI) を構築し、さらに畳み込みネットワークを利用して、GAN の潜在コードを SI として抽出します。デコーダ側では、SI と隣接する視点を組み合わせて、GAN ジェネレータを使用して中間ビューを再構築します。具体的には、再構成コストと SI エントロピーの共同エンコーダー制約を確立して、再構成品質とビットレート オーバーヘッドの間の最適なトレードオフを実現します。実験では、最先端の方法と比較して、Rate-Distortion (RD) 性能が大幅に改善されていることが実証されています。
The introduction of multiple viewpoints in video scenes inevitably increases the bitrates required for storage and transmission. To reduce bitrates, researchers have developed methods to skip intermediate viewpoints during compression and delivery, and ultimately reconstruct them using Side Information (SI). Typically, depth maps are used to construct SI. However, their methods suffer from inaccuracies in reconstruction and inherently high bitrates. In this paper, we propose a novel multi-view video coding method that leverages the image generation capabilities of Generative Adversarial Network (GAN) to improve the reconstruction accuracy of SI. Additionally, we consider incorporating information from adjacent temporal and spatial viewpoints to further reduce SI redundancy. At the encoder, we construct a spatio-temporal Epipolar Plane Image (EPI) and further utilize a convolutional network to extract the latent code of a GAN as SI. At the decoder side, we combine the SI and adjacent viewpoints to reconstruct intermediate views using the GAN generator. Specifically, we establish a joint encoder constraint for reconstruction cost and SI entropy to achieve an optimal trade-off between reconstruction quality and bitrates overhead. Experiments demonstrate significantly improved Rate-Distortion (RD) performance compared with state-of-the-art methods.