arXiv reaDer
教師なしのフレームとセグメントのアライメントによる順列認識アクションのセグメンテーション
Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment
この論文では、フレームレベルのキューだけでなくセグメントレベルのキューも活用する時間アクティビティセグメンテーションのための教師なしトランスフォーマーベースのフレームワークを紹介します。これは、多くの場合フレームレベルの情報のみに依存する以前の方法とは対照的です。私たちのアプローチは、トランスフォーマーエンコーダーを介してフレームごとのアクションクラスを推定するフレームレベルの予測モジュールから始まります。フレームレベルの予測モジュールは、時間最適トランスポートを介して教師なしの方法でトレーニングされます。セグメントレベルの情報を利用するために、セグメントレベルの予測モジュールとフレーム間アライメントモジュールを利用します。前者にはビデオトランスクリプトを推定するためのトランスフォーマーデコーダが含まれており、後者はフレームレベルの特徴をセグメントレベルの特徴と照合して、順列を認識したセグメンテーション結果を生成します。さらに、時間最適トランスポートからインスピレーションを得て、上記のモジュールの教師なしトレーニング用に、シンプルでありながら効果的な擬似ラベルを導入します。 4 つの公開データセット (50 サラダ、YouTube 指示、朝食、デスクトップ アセンブリ) での実験では、私たちのアプローチが教師なしアクティビティ セグメンテーションにおいて以前の方法と同等以上のパフォーマンスを達成することが示されています。
This paper presents an unsupervised transformer-based framework for temporal activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we utilize a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we introduce simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation.
updated: Wed Sep 20 2023 22:03:39 GMT+0000 (UTC)
published: Wed May 31 2023 01:12:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト