本稿では、ビデオオブジェクト検出のためのジオメトリ認識モデルを提案します。具体的には、カメラを静的なものとしてよく近似できる設定、たとえばしたがって、ビデオ監視シナリオでは、シーンの擬似深度マップは、イメージプレーン上のオブジェクトスケールから簡単に推測できます。以下の貢献を行います。まず、最近のアンカーフリー検出器(CornerNet [17])をビデオオブジェクト検出に拡張します。高い効率を維持しながら空間時間情報を活用するために、提案されたモデルは、ビデオクリップを入力として受け入れ、開始フレームと終了フレーム、つまりオブジェクトバウンディングボックスコーナーのヒートマップと、対応するグループ化の埋め込みのみを予測します。第二に、オブジェクト検出のスケールの変化、シーンジオメトリ情報などの課題に取り組むこと。導出された深度マップは、マルチスケールフィーチャ選択およびネットワーク予測のためにディープネットワークに明示的に組み込まれます。第三に、Carlaシミュレーターから生成された自動運転データセット[5]と、人間検出用の実際のデータセット(DukeMTMCデータセット[28])で提案されたアーキテクチャを検証します。既存の競合する単一ステージまたは2ステージ検出器と比較すると、提案されたジオメトリ認識時空間ネットワークは、大幅に優れた結果を達成します。
In this paper we propose a geometry-aware model for video object detection. Specifically, we consider the setting that cameras can be well approximated as static, e.g. in video surveillance scenarios, and scene pseudo depth maps can therefore be inferred easily from the object scale on the image plane. We make the following contributions: First, we extend the recent anchor-free detector (CornerNet [17]) to video object detections. In order to exploit the spatial-temporal information while maintaining high efficiency, the proposed model accepts video clips as input, and only makes predictions for the starting and the ending frames, i.e. heatmaps of object bounding box corners and the corresponding embeddings for grouping. Second, to tackle the challenge from scale variations in object detection, scene geometry information, e.g. derived depth maps, is explicitly incorporated into deep networks for multi-scale feature selection and for the network prediction. Third, we validate the proposed architectures on an autonomous driving dataset generated from the Carla simulator [5], and on a real dataset for human detection (DukeMTMC dataset [28]). When comparing with the existing competitive single-stage or two-stage detectors, the proposed geometry-aware spatio-temporal network achieves significantly better results.