Spatial-Temporal Transformer for Dynamic Scene Graph Generation
動的シーングラフ生成は、特定のビデオのシーングラフを生成することを目的としています。画像からのシーングラフ生成のタスクと比較すると、オブジェクト間の動的な関係とフレーム間の時間的依存関係により、より豊富なセマンティック解釈が可能になるため、より困難です。この論文では、2つのコアモジュールで構成されるニューラルネットワークであるSpatial-temporal Transformer(STTran)を提案します。(1)入力フレームを取得してフレーム内の視覚的関係に関する空間コンテキストと理由を抽出する空間エンコーダー。 (2)フレーム間の時間的依存関係をキャプチャし、動的な関係を推測するために、空間エンコーダの出力を入力として受け取る時間デコーダ。さらに、STTranは、クリッピングなしでさまざまな長さのビデオを入力として受け取る柔軟性があります。これは、長いビデオにとって特に重要です。私たちの方法は、ベンチマークデータセットAction Genome(AG)で検証されています。実験結果は、動的シーングラフの観点から、私たちの方法の優れたパフォーマンスを示しています。さらに、一連の切除研究が実施され、提案された各モジュールの効果が正当化されます。コードはで入手できます。
Dynamic scene graph generation aims at generating a scene graph of the given video. Compared to the task of scene graph generation from images, it is more challenging because of the dynamic relationships between objects and the temporal dependencies between frames allowing for a richer semantic interpretation. In this paper, we propose Spatial-temporal Transformer (STTran), a neural network that consists of two core modules: (1) a spatial encoder that takes an input frame to extract spatial context and reason about the visual relationships within a frame, and (2) a temporal decoder which takes the output of the spatial encoder as input in order to capture the temporal dependencies between frames and infer the dynamic relationships. Furthermore, STTran is flexible to take varying lengths of videos as input without clipping, which is especially important for long videos. Our method is validated on the benchmark dataset Action Genome (AG). The experimental results demonstrate the superior performance of our method in terms of dynamic scene graphs. Moreover, a set of ablative studies is conducted and the effect of each proposed module is justified. Code available at:
updated: Sun Aug 08 2021 09:54:41 GMT+0000 (UTC)
published: Mon Jul 26 2021 16:30:30 GMT+0000 (UTC)
