arXiv reaDer
PreCNet:予測コーディングに基づく次のフレームのビデオ予測
PreCNet: Next Frame Video Prediction Based on Predictive Coding
現在神経科学で非常に影響力のある理論である予測コーディングは、機械学習ではまだ広く採用されていません。この作業では、Rao and Ballard(1999)の独創的なモデルを、元のスキーマに最大限忠実に保ちながら、最新の深層学習フレームワークに変換します。結果として得られるネットワーク(PreCNet)は、広く使用されている次のフレームのビデオ予測ベンチマークでテストされます。これは、車載カメラから記録された都市環境からの画像で構成されます。このベンチマーク(トレーニング:KITTIデータセットからの41k画像、テスト:Caltech Pedestrianデータセット)では、構造的類似性指数(SSIM)で測定した場合、これまでで最高のパフォーマンスを達成しています。より大きなトレーニングセット(BDD100kからの2M画像)を使用すると、すべての測定のパフォーマンスがさらに向上し、KITTIトレーニングセットの制限が示されました。この作業は、神経科学モデルに注意深く基づいたアーキテクチャが、目前のタスクに明示的に調整されることなく、前例のないパフォーマンスを発揮できることを示しています。
Predictive coding, currently a highly influential theory in neuroscience, has not been widely adopted in machine learning yet. In this work, we transform the seminal model of Rao and Ballard (1999) into a modern deep learning framework while remaining maximally faithful to the original schema. The resulting network we propose (PreCNet) is tested on a widely used next frame video prediction benchmark, which consists of images from an urban environment recorded from a car-mounted camera. On this benchmark (training: 41k images from KITTI dataset; testing: Caltech Pedestrian dataset), we achieve to our knowledge the best performance to date when measured with the Structural Similarity Index (SSIM). Performance on all measures was further improved when a larger training set (2M images from BDD100k), pointing to the limitations of the KITTI training set. This work demonstrates that an architecture carefully based in a neuroscience model, without being explicitly tailored to the task at hand, can exhibit unprecedented performance.
updated: Fri Dec 11 2020 13:58:55 GMT+0000 (UTC)
published: Thu Apr 30 2020 15:31:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト