未来を予測することは、視覚的シーンの理解に大きく依存しているロボット工学または自動運転システムの意思決定にとって重要な側面です。前の作業では、前のフレームのセグメンテーションから将来のビデオピクセルの予測、アクティビティの予測、または将来のシーンのセマンティックセグメントの予測が試みられますが、単一のエンドツーエンドのトレーニング可能なモデルで前のフレームのRGBデータのみから将来のセマンティックセグメンテーションを予測する方法は、存在します。この論文では、過去のRGBフレームをエンコードし、将来のセマンティックセグメンテーションをデコードする一時的なエンコーダ/デコーダネットワークアーキテクチャを提案します。このネットワークは、予測タスクに固有の新しい知識抽出トレーニングフレームワークと組み合わされています。私たちの方法は、先行するビデオフレームのみを参照して、シーンセグメントを暗黙的にモデル化し、同時にオブジェクトダイナミクスを考慮して将来のシーンセマンティックセグメントを推測します。 CityscapesおよびApolloscapeでの結果は、ベースラインおよび現在の最先端の方法よりも優れています。コードはhttps://github.com/eddyhkchiu/segmenting_the_future/で入手できます。
Predicting the future is an important aspect for decision-making in robotics or autonomous driving systems, which heavily rely upon visual scene understanding. While prior work attempts to predict future video pixels, anticipate activities or forecast future scene semantic segments from segmentation of the preceding frames, methods that predict future semantic segmentation solely from the previous frame RGB data in a single end-to-end trainable model do not exist. In this paper, we propose a temporal encoder-decoder network architecture that encodes RGB frames from the past and decodes the future semantic segmentation. The network is coupled with a new knowledge distillation training framework specific for the forecasting task. Our method, only seeing preceding video frames, implicitly models the scene segments while simultaneously accounting for the object dynamics to infer the future scene semantic segments. Our results on Cityscapes and Apolloscape outperform the baseline and current state-of-the-art methods. Code is available at https://github.com/eddyhkchiu/segmenting_the_future/.