多くの人間の活動は展開するのに数分かかります。それらを表現するために、関連する作品は統計的プーリングを選択していますが、これは時間的構造を無視しています。 CNNや非ローカルなど、畳み込み手法を選択するものもあります。一時的な概念の学習には成功していますが、数分間の一時的な依存関係をモデル化するには至っていません。私たちはVideoGraphを提案します。これは、2つの世界の長所を実現する方法です。1分間の人間の活動を表し、その基礎となる時間構造を学習します。 VideoGraphは、人間の活動のグラフベースの表現を学習します。グラフ、そのノード、およびエッジはビデオデータセットから完全に学習されるため、VideoGraphはノードレベルの注釈なしで問題に適用できます。その結果、Epic-KitchenとBreakfastのベンチマークで関連する作品が改善されました。さらに、VideoGraphが人間の活動の時間構造を数分のビデオで学習できることを示します。
Many human activities take minutes to unfold. To represent them, related works opt for statistical pooling, which neglects the temporal structure. Others opt for convolutional methods, as CNN and Non-Local. While successful in learning temporal concepts, they are short of modeling minutes-long temporal dependencies. We propose VideoGraph, a method to achieve the best of two worlds: represent minutes-long human activities and learn their underlying temporal structure. VideoGraph learns a graph-based representation for human activities. The graph, its nodes and edges are learned entirely from video datasets, making VideoGraph applicable to problems without node-level annotation. The result is improvements over related works on benchmarks: Epic-Kitchen and Breakfast. Besides, we demonstrate that VideoGraph is able to learn the temporal structure of human activities in minutes-long videos.