VP9ビデオコーデックでは、ブロックのサイズは、レート歪み最適化(RDO)を使用して64 x 64スーパーブロックを再帰的に分割することにより、エンコード中に決定されます。スーパーブロックの可能なパーティションの組み合わせ検索空間のため、このプロセスは計算集約的です。ここでは、階層的な完全たたみ込みネットワーク(H-FCN)を使用して、4レベルのパーティションツリーの形でモード内スーパーブロックパーティションを予測する、ディープラーニングベースの代替フレームワークを提案します。 VP9スーパーブロックと対応するパーティションの大規模なデータベースを作成して、H-FCNモデルをトレーニングしました。これは、その後VP9エンコーダーと統合され、イントラモードのエンコード時間を短縮しました。実験結果から、Bjontegaard-Deltaビットレート(BDレート)が1.71%増加するという犠牲を払って、イントラモードエンコーディングが平均69.7%高速化されることがわかります。 VP9はいくつかの組み込み速度レベルを提供しますが、レート歪みパフォーマンスの低下を犠牲にしてより高速なエンコーディングを提供するように設計されていますが、このモデルは参照VP9エンコーダーの推奨される最高速度レベルよりも優れており、高品質のイントラを実現できます。スピードアップとBDレートの両方の観点から、エンコーディング構成。
In VP9 video codec, the sizes of blocks are decided during encoding by recursively partitioning 64×64 superblocks using rate-distortion optimization (RDO). This process is computationally intensive because of the combinatorial search space of possible partitions of a superblock. Here, we propose a deep learning based alternative framework to predict the intra-mode superblock partitions in the form of a four-level partition tree, using a hierarchical fully convolutional network (H-FCN). We created a large database of VP9 superblocks and the corresponding partitions to train an H-FCN model, which was subsequently integrated with the VP9 encoder to reduce the intra-mode encoding time. The experimental results establish that our approach speeds up intra-mode encoding by 69.7% on average, at the expense of a 1.71% increase in the Bjontegaard-Delta bitrate (BD-rate). While VP9 provides several built-in speed levels which are designed to provide faster encoding at the expense of decreased rate-distortion performance, we find that our model is able to outperform the fastest recommended speed level of the reference VP9 encoder for the good quality intra encoding configuration, in terms of both speedup and BD-rate.