この拡張アブストラクトでは、Traffic4Cast Challenge 2019のソリューションについて説明します。対処した重要な問題は、フレーム間の時間的関係を維持しながら、低レベル(ピクセルベース)および高レベルの空間情報を適切にモデル化することです。私たちのアプローチは、LSTMなどのリカレントニューラルネットワークへの畳み込み機能の最近の採用に触発され、時空間依存性を共同でキャプチャします。このアプローチは、アクション認識で従来のスタックCNN(2Dまたは3Dカーネルを使用)を上回ることが証明されていますが、トラフィック予測設定での最適なパフォーマンスは観察できません。したがって、フレームエンコーダーデコーダーレイヤーとサンプリング手順に多くの適応を適用して、高解像度の軌跡をより適切にキャプチャし、トレーニングの効率を高めます。
This extended abstract describes our solution for the Traffic4Cast Challenge 2019. The key problem we addressed is to properly model both low-level (pixel based) and high-level spatial information while still preserve the temporal relations among the frames. Our approach is inspired by the recent adoption of convolutional features into a recurrent neural networks such as LSTM to jointly capture the spatio-temporal dependency. While this approach has been proven to surpass the traditional stacked CNNs (using 2D or 3D kernels) in action recognition, we observe suboptimal performance in traffic prediction setting. Therefore, we apply a number of adaptations in the frame encoder-decoder layers and in sampling procedure to better capture the high-resolution trajectories, and to increase the training efficiency.