最近、自己教師あり学習は、画像シーケンスの時間的セグメンテーションに適したイベントの表現を学習するのに効果的であることが証明されました。イベントは、全体として意味的に認識される時間的に隣接する画像のセットとして理解されます。ただし、このアプローチは高価な手動注釈を必要としませんが、データを大量に消費し、ドメイン適応の問題に悩まされます。別の方法として、この作業では、動的グラフ埋め込み(DGE)という名前のイベント表現を学習するための新しいアプローチを提案します。私たちのモデルの根底にある仮定は、画像のシーケンスは、意味的および時間的類似性の両方をエンコードするグラフで表すことができるということです。 DGEの重要な目新しさは、グラフとそのグラフ埋め込みを共同で学習することです。 DGEは、基本的に2つのステップを繰り返すことで機能します。1)現在のデータ表現に基づいてデータの意味的および時間的類似性を表すグラフを更新し、2)現在のデータグラフ構造を考慮してデータ表現を更新します。最先端の自己監視アプローチに対するDGEの主な利点は、トレーニングセットを必要とせず、代わりにデータ自体から、時間的および意味的な類似性を反映する低次元の埋め込みを繰り返し学習することです。一定の時間間隔でキャプチャされた実際の画像シーケンスの2つのベンチマークデータセットに関する実験結果は、提案されたDGEが時間的セグメンテーションに効果的なイベント表現につながることを示しています。特に、EDUBSegおよびEDUBSeg-Descベンチマークデータセットで堅牢な時間的セグメンテーションを実現し、最先端のパフォーマンスを上回っています。 2つのヒューマンモーションセグメンテーションベンチマークデータセットに関する追加の実験は、提案されたDGEの一般化機能を示しています。
Recently, self-supervised learning has proved to be effective to learn representations of events suitable for temporal segmentation in image sequences, where events are understood as sets of temporally adjacent images that are semantically perceived as a whole. However, although this approach does not require expensive manual annotations, it is data hungry and suffers from domain adaptation problems. As an alternative, in this work, we propose a novel approach for learning event representations named Dynamic Graph Embedding (DGE). The assumption underlying our model is that a sequence of images can be represented by a graph that encodes both semantic and temporal similarity. The key novelty of DGE is to learn jointly the graph and its graph embedding. At its core, DGE works by iterating over two steps: 1) updating the graph representing the semantic and temporal similarity of the data based on the current data representation, and 2) updating the data representation to take into account the current data graph structure. The main advantage of DGE over state-of-the-art self-supervised approaches is that it does not require any training set, but instead learns iteratively from the data itself a low-dimensional embedding that reflects their temporal and semantic similarity. Experimental results on two benchmark datasets of real image sequences captured at regular time intervals demonstrate that the proposed DGE leads to event representations effective for temporal segmentation. In particular, it achieves robust temporal segmentation on the EDUBSeg and EDUBSeg-Desc benchmark datasets, outperforming the state of the art. Additional experiments on two Human Motion Segmentation benchmark datasets demonstrate the generalization capabilities of the proposed DGE.