Fine-grained Action Segmentation using the Semi-Supervised Action GAN
  このホワイトペーパーでは、セグメント化されていないビデオストリームに複数のアクションが存在する、連続したきめ細かいアクションセグメンテーションの問題に対処します。このタスクの課題は、アクションの階層的な性質を表現し、アクション間の遷移を検出し、ビデオ内のアクションを効果的にローカライズできるようにする必要性にあります。連続的なきめの細かい人間の行動のセグメンテーションのための小説の再発半教師付き生成敵対ネットワーク(GAN)モデルを提案します。一時的なコンテキスト情報は、ゲーテッドアテンションユニットで構成される斬新なGated Context Extractor(GCE)モジュールを介してキャプチャされます。このモジュールは、アクションモデルを強化するために、ジェネレータモデルを通じてキューコンテキスト情報を管理します。 GANは、機能を半教師付きで学習するように作られており、モデルは標準の教師なしGAN学習手順と一緒にアクション分類を実行できます。提案されたネットワークアーキテクチャの重要性を実証するために、さまざまなアーキテクチャのバリエーションに対して広範な評価を実行し、50サラダ、MERLショッピング、ジョージアテックエゴセントリックアクティビティデータセットの3つの困難なデータセットで現在の最先端を上回る能力があることを示します。
In this paper we address the problem of continuous fine-grained action segmentation, in which multiple actions are present in an unsegmented video stream. The challenge for this task lies in the need to represent the hierarchical nature of the actions and to detect the transitions between actions, allowing us to localise the actions within the video effectively. We propose a novel recurrent semi-supervised Generative Adversarial Network (GAN) model for continuous fine-grained human action segmentation. Temporal context information is captured via a novel Gated Context Extractor (GCE) module, composed of gated attention units, that directs the queued context information through the generator model, for enhanced action segmentation. The GAN is made to learn features in a semi-supervised manner, enabling the model to perform action classification jointly with the standard, unsupervised, GAN learning procedure. We perform extensive evaluations on different architectural variants to demonstrate the importance of the proposed network architecture, and show that it is capable of outperforming current state-of-the-art on three challenging datasets: 50 Salads, MERL Shopping and Georgia Tech Egocentric Activities dataset.
updated: Fri Sep 20 2019 00:38:05 GMT+0000 (UTC)
published: Fri Sep 20 2019 00:38:05 GMT+0000 (UTC)
