Lotterらによって開発された深部予測コーディングネットワークであるPredNetは、予測エラーの伝播に基づく生物学にヒントを得たアーキテクチャと、ビデオの自己教師付き表現学習を組み合わせています。アーキテクチャは多くの注目を集めており、モデルにはさまざまな拡張機能が存在しますが、重要な分析が欠けています。 PredNetを予測コーディング理論の実装として、および困難なビデオアクション分類データセットを使用した自己監視ビデオ予測モデルとして評価することにより、ギャップを埋めます。ビデオのアクションクラスで将来のフレーム予測を調整することでモデルのパフォーマンスが向上するかどうかをテストするために、拡張モデルを設計します。 PredNetがまだ予測コーディングの原則に完全に従っていないことを示しています。提案されたトップダウン条件付けは、合成データのパフォーマンスを向上させますが、より複雑な実際のアクション分類データセットにスケールアップしません。私たちの分析は、予測コーディング理論に基づいて、同様のアーキテクチャに関する将来の研究を導くことを目的としています。
PredNet, a deep predictive coding network developed by Lotter et al., combines a biologically inspired architecture based on the propagation of prediction error with self-supervised representation learning in video. While the architecture has drawn a lot of attention and various extensions of the model exist, there is a lack of a critical analysis. We fill in the gap by evaluating PredNet both as an implementation of the predictive coding theory and as a self-supervised video prediction model using a challenging video action classification dataset. We design an extended model to test if conditioning future frame predictions on the action class of the video improves the model performance. We show that PredNet does not yet completely follow the principles of predictive coding. The proposed top-down conditioning leads to a performance gain on synthetic data, but does not scale up to the more complex real-world action classification dataset. Our analysis is aimed at guiding future research on similar architectures based on the predictive coding theory.