表現の予測は、安全で効果的な自律性のために重要です。このため、最近の研究では、パノラマセグメンテーションが説得力のある表現として研究されています。ただし、最近の最新のパノラマセグメンテーション予測には2つの問題があります。1つは、個々のオブジェクトインスタンスが互いに独立して扱われることです。次に、個々のオブジェクトインスタンスの予測がヒューリスティックな方法でマージされます。両方の問題に対処するために、「差異注意」に基づくトランスフォーマーモデルを使用して、シーン内のすべてのオブジェクトインスタンスを共同で予測する新しいパノラマセグメンテーション予測モデルを研究します。深度推定を考慮に入れることにより、予測をさらに洗練します。 CityscapesおよびAIODriveデータセットで提案されたモデルを評価します。場所などの量の違いにより、モデルが速度と加速度について明示的に推論できるため、違いの注意が予測に特に適していることがわかります。このため、パノプティコンセグメンテーション予測メトリックの最先端を達成します。
Forecasting of a representation is important for safe and effective autonomy. For this, panoptic segmentations have been studied as a compelling representation in recent work. However, recent state-of-the-art on panoptic segmentation forecasting suffers from two issues: first, individual object instances are treated independently of each other; second, individual object instance forecasts are merged in a heuristic manner. To address both issues, we study a new panoptic segmentation forecasting model that jointly forecasts all object instances in a scene using a transformer model based on 'difference attention.' It further refines the predictions by taking depth estimates into account. We evaluate the proposed model on the Cityscapes and AIODrive datasets. We find difference attention to be particularly suitable for forecasting because the difference of quantities like locations enables a model to explicitly reason about velocities and acceleration. Because of this, we attain state-of-the-art on panoptic segmentation forecasting metrics.