自然なビデオのイベントは、通常、俳優とオブジェクトの間の時空間的な相互作用から発生し、複数の同時発生するアクティビティとオブジェクトクラスを伴います。この豊かな視覚的および意味論的コンテキストをキャプチャするために、2つのグラフを使用することを提案します:(1)ノードがアクターとオブジェクトに対応し、エッジがさまざまなタイプの相互作用をエンコードする属性付き時空間視覚グラフ、および(2)モデル化するシンボリックグラフ意味関係。さらに、結果のハイブリッドグラフ上でのアクター、オブジェクト、およびそれらの相互作用の表現を改良するためのグラフニューラルネットワークを提案します。私たちのモデルは、ノードとエッジが同じタイプであり、固定されたエッジの重みを持つグラフで動作し、シンボリックグラフを使用しないという現在のアプローチを超えています。特に、私たちのフレームワークは次のとおりです。a)さまざまなノードおよびエッジタイプに特化した注意ベースのメッセージ機能。 b)視覚的なエッジ機能を使用します。 c)視覚的証拠をラベルの関係と統合します。 d)意味空間でグローバル推論を実行します。 Charadesデータセットでの一時的なアクションのローカリゼーションなど、挑戦的なビデオ理解タスクに関する実験は、提案された方法が最先端のパフォーマンスにつながることを示しています。
Events in natural videos typically arise from spatio-temporal interactions between actors and objects and involve multiple co-occurring activities and object classes. To capture this rich visual and semantic context, we propose using two graphs: (1) an attributed spatio-temporal visual graph whose nodes correspond to actors and objects and whose edges encode different types of interactions, and (2) a symbolic graph that models semantic relationships. We further propose a graph neural network for refining the representations of actors, objects and their interactions on the resulting hybrid graph. Our model goes beyond current approaches that assume nodes and edges are of the same type, operate on graphs with fixed edge weights and do not use a symbolic graph. In particular, our framework: a) has specialized attention-based message functions for different node and edge types; b) uses visual edge features; c) integrates visual evidence with label relationships; and d) performs global reasoning in the semantic space. Experiments on challenging video understanding tasks, such as temporal action localization on the Charades dataset, show that the proposed method leads to state-of-the-art performance.