多くの場合、シーン内のオブジェクトの相互作用によって定義されるイベントは非常に重要です。しかし、重要なイベントでは、従来のディープモデルをトレーニングして将来のオブジェクトの外観に一般化するには、ラベルの付いた例が不十分な場合があります。オブジェクトの相互作用を明示的に表すアクティビティ認識モデルは、グローバル記述子を使用してシーンを表すモデルよりも効率的な方法で学習する可能性があります。エッジの外観の直接観測とのもつれを解くグラフ埋め込みに基づく活動認識のための新しいオブジェクト間グラフ表現を提案する。グラフ構造の新しいファクタリングされた埋め込みを採用し、空間的次元で形成された表現階層を、時間的変動で見つかったものから解きほぐします。シャレードアクティビティ認識ベンチマークでモデルの有効性を実証するとともに、衝突に近いイベントとのマルチオブジェクトインタラクションに焦点を当てた運転アクティビティの新しいデータセットを示します。このモデルは、オブジェクトグラフ表現のないベースラインアプローチ、または以前のグラフベースのモデルと比較して、パフォーマンスが大幅に向上しています。
Events defined by the interaction of objects in a scene are often of critical importance; yet important events may have insufficient labeled examples to train a conventional deep model to generalize to future object appearance. Activity recognition models that represent object interactions explicitly have the potential to learn in a more efficient manner than those that represent scenes with global descriptors. We propose a novel inter-object graph representation for activity recognition based on a disentangled graph embedding with direct observation of edge appearance. We employ a novel factored embedding of the graph structure, disentangling a representation hierarchy formed over spatial dimensions from that found over temporal variation. We demonstrate the effectiveness of our model on the Charades activity recognition benchmark, as well as a new dataset of driving activities focusing on multi-object interactions with near-collision events. Our model offers significantly improved performance compared to baseline approaches without object-graph representations, or with previous graph-based models.