ライトフィールド(LF)ビデオを「1回限りの」ニューラルネットワーク(NN)として表現することをお勧めします。つまり、ビューと時間の座標からスパースビューでトレーニングされた高解像度カラー値への学習マッピングです。当初、これは3つの主な理由から悪い考えのように聞こえます。まず、NN LFは同じサイズのピクセルベース表現よりも品質が低い可能性が高いです。第二に、わずかなトレーニングデータ、たとえば、フレームごとに9個のサンプルがスパースLFビデオに利用できるだけです。第三に、LF全体では一般化されていませんが、ビューと時間全体では一般化されていません。そのため、各LFビデオに対してネットワークをトレーニングする必要があります。驚くべきことに、これらの問題は実質的な利点に変わる可能性があります:線形ピクセルベース以外に、NNは、コンパクトで非線形、つまり、よりインテリジェントな色の説明を、スパースビューと時間座標に基づいて作成する必要があります。ただし、多くのNNで観察されているように、この表現は現在補間可能です。まばらなビュー座標の画像出力が妥当である場合、すべての中間の連続座標も同様です。当社の特定のネットワークアーキテクチャには、差別化可能なオクルージョン認識ワーピングステップが含まれており、トレーニング可能なパラメーターのコンパクトなセットにつながり、その結果、高速な学習と高速な実行が可能になります。
We suggest representing light field (LF) videos as "one-off" neural networks (NN), i.e., a learned mapping from view-plus-time coordinates to high-resolution color values, trained on sparse views. Initially, this sounds like a bad idea for three main reasons: First, a NN LF will likely have less quality than a same-sized pixel basis representation. Second, only few training data, e.g., 9 exemplars per frame are available for sparse LF videos. Third, there is no generalization across LFs, but across view and time instead. Consequently, a network needs to be trained for each LF video. Surprisingly, these problems can turn into substantial advantages: Other than the linear pixel basis, a NN has to come up with a compact, non-linear i.e., more intelligent, explanation of color, conditioned on the sparse view and time coordinates. As observed for many NN however, this representation now is interpolatable: if the image output for sparse view coordinates is plausible, it is for all intermediate, continuous coordinates as well. Our specific network architecture involves a differentiable occlusion-aware warping step, which leads to a compact set of trainable parameters and consequently fast learning and fast execution.