ビデオの時間的キャラクターのグループ化は、ビデオ内の主要キャラクターの登場瞬間をそのアイデンティティに従って特定します。この目的を達成するために、最近の研究は教師なしクラスタリングからグラフベースの教師ありクラスタリングに進化しました。ただし、グラフ メソッドは固定アフィニティ グラフを前提として構築されているため、多くの不正確な接続が生じます。さらに、さまざまなモデルでマルチモーダルな特徴を抽出しますが、これは展開には不向きです。この論文では、時間文字グループ化のための統合動的グラフ (UniDG) フレームワークを紹介します。これは、まず、同じ空間内の複数のモダリティの表現を学習し、同時にモダリティの一意性を維持する統一表現ネットワークによって実現されます。次に、循環マッチング戦略を介してノードごとに異なる量の近傍が動的に構築され、より信頼性の高いアフィニティ グラフが得られる動的グラフ クラスタリングを提案します。第三に、異なるモダリティ間の空間的および時間的コンテキストを活用するために、プログレッシブ関連付け手法が導入され、マルチモーダル クラスタリングの結果を適切に融合できるようになります。現在のデータセットは事前に抽出された特徴のみを提供するため、MTCG という名前の収集されたデータセットで UniDG メソッドを評価します。このデータセットには、各キャラクターの顔と体の出現クリップと話し声トラックが含まれています。また、既存のクラスタリングおよび検索データセットの主要コンポーネントを評価して、一般化能力を検証します。実験結果は、私たちの方法が有望な結果を達成し、いくつかの最先端のアプローチを上回ることができることを示しています。
Video temporal character grouping locates appearing moments of major characters within a video according to their identities. To this end, recent works have evolved from unsupervised clustering to graph-based supervised clustering. However, graph methods are built upon the premise of fixed affinity graphs, bringing many inexact connections. Besides, they extract multi-modal features with kinds of models, which are unfriendly to deployment. In this paper, we present a unified and dynamic graph (UniDG) framework for temporal character grouping. This is accomplished firstly by a unified representation network that learns representations of multiple modalities within the same space and still preserves the modality's uniqueness simultaneously. Secondly, we present a dynamic graph clustering where the neighbors of different quantities are dynamically constructed for each node via a cyclic matching strategy, leading to a more reliable affinity graph. Thirdly, a progressive association method is introduced to exploit spatial and temporal contexts among different modalities, allowing multi-modal clustering results to be well fused. As current datasets only provide pre-extracted features, we evaluate our UniDG method on a collected dataset named MTCG, which contains each character's appearing clips of face and body and speaking voice tracks. We also evaluate our key components on existing clustering and retrieval datasets to verify the generalization ability. Experimental results manifest that our method can achieve promising results and outperform several state-of-the-art approaches.