ロボットシステムの安全でプロアクティブな計画には、通常、環境の正確な予測が必要です。環境予測に関する以前の研究では、ビデオフレーム予測技術を、占有グリッドなどの鳥瞰図環境表現に適用していました。以前に使用されていたConvLSTMベースのフレームワークでは、移動するオブジェクトが大幅にぼやけたり消えたりすることが多く、セーフティクリティカルなアプリケーションでの使用への適用が妨げられます。この作業では、これらの問題に対処するためにConvLSTMに2つの拡張機能を提案します。時空間占有予測のためのTemporalAttention Augmented ConvLSTM(TAAConvLSTM)およびSelf-Attention Augmented ConvLSTM(SAAConvLSTM)フレームワークを提示し、実際のKITTIおよびWaymoデータセットのベースラインアーキテクチャよりもパフォーマンスが向上していることを示します。
Safe and proactive planning in robotic systems generally requires accurate predictions of the environment. Prior work on environment prediction applied video frame prediction techniques to bird's-eye view environment representations, such as occupancy grids. ConvLSTM-based frameworks used previously often result in significant blurring and vanishing of moving objects, thus hindering their applicability for use in safety-critical applications. In this work, we propose two extensions to the ConvLSTM to address these issues. We present the Temporal Attention Augmented ConvLSTM (TAAConvLSTM) and Self-Attention Augmented ConvLSTM (SAAConvLSTM) frameworks for spatiotemporal occupancy prediction, and demonstrate improved performance over baseline architectures on the real-world KITTI and Waymo datasets.