タイムスタンプ監視による時間的活動セグメンテーションのための新しいアプローチを紹介します。私たちの主な貢献はグラフ畳み込みネットワークです。これは、フレームの特徴と隣接するフレーム間の接続の両方を活用して、まばらなタイムスタンプラベルから高密度のフレーム単位のラベルを生成するためにエンドツーエンドの方法で学習されます。生成された密なフレーム単位のラベルは、セグメンテーションモデルのトレーニングに使用できます。さらに、セグメンテーションモデルとグラフ畳み込みモデルの両方を交互に学習するためのフレームワークを提案します。これは、最初に初期化してから、学習したモデルを繰り返し改良します。 50サラダ、GTEA、朝食、デスクトップアセンブリを含む、4つの公開データセットに関する詳細な実験では、時間的アクティビティのセグメンテーションで最先端の方法と同等またはそれ以上のパフォーマンスを発揮しながら、私たちの方法が多層パーセプトロンベースラインよりも優れていることが示されています。タイムスタンプ監視付き。
We introduce a novel approach for temporal activity segmentation with timestamp supervision. Our main contribution is a graph convolutional network, which is learned in an end-to-end manner to exploit both frame features and connections between neighboring frames to generate dense framewise labels from sparse timestamp labels. The generated dense framewise labels can then be used to train the segmentation model. In addition, we propose a framework for alternating learning of both the segmentation model and the graph convolutional model, which first initializes and then iteratively refines the learned models. Detailed experiments on four public datasets, including 50 Salads, GTEA, Breakfast, and Desktop Assembly, show that our method is superior to the multi-layer perceptron baseline, while performing on par with or better than the state of the art in temporal activity segmentation with timestamp supervision.