arXiv reaDer
アクティブラーニングによるスパース半教師あり行動認識
Sparse Semi-Supervised Action Recognition with Active Learning
スケルトンベースの行動認識のための現在の最先端の方法は監視されており、ラベルに依存しています。注釈や誤ったラベルの付いたデータに伴う課題のため、依存はパフォーマンスを制限しています。教師なしメソッドが導入されましたが、シーケンスをクラスターに編成し、クラスターをアクションに関連付けるためにラベルが必要です。この論文では、これらのアプローチを接続する、SESARと呼ばれるスケルトンベースの行動認識のための新しいアプローチを提案します。 SESARは、教師なしトレーニングと教師なしガイダンスを組み合わせて、ラベルなしデータとラベル付け用にアクティブに選択された少数のシーケンスの両方からの情報を活用します。 SESARは2つの主要なコンポーネントで構成され、最初のコンポーネントはシーケンスを再構築するエンコーダーデコーダーRNNを介してラベル付けされていないアクションシーケンスの潜在表現を学習し、2番目のコンポーネントはアクティブラーニングを実行してクラスターと分類の不確実性に基づいてラベル付けするシーケンスを選択します。 2つのコンポーネントがスケルトンベースのアクションシーケンスで同時にトレーニングされると、それらはほんの一握りのラベル付きサンプルを使用したアクション認識のための堅牢なシステムに対応します。 NW UCLA、NTU RGB + D 60、UWA3Dなど、複数のシーケンスとアクションを持つ一般的なデータセットでシステムを評価します。私たちの結果は、データの1%という低いラベルの付いたサンプルに適用した場合、スタンドアロンのスケルトンベースの教師あり、教師なし、クラスター識別、およびアクション認識のアクティブラーニング手法よりも優れています。
Current state-of-the-art methods for skeleton-based action recognition are supervised and rely on labels. The reliance is limiting the performance due to the challenges involved in annotation and mislabeled data. Unsupervised methods have been introduced, however, they organize sequences into clusters and still require labels to associate clusters with actions. In this paper, we propose a novel approach for skeleton-based action recognition, called SESAR, that connects these approaches. SESAR leverages the information from both unlabeled data and a handful of sequences actively selected for labeling, combining unsupervised training with sparsely supervised guidance. SESAR is composed of two main components, where the first component learns a latent representation for unlabeled action sequences through an Encoder-Decoder RNN which reconstructs the sequences, and the second component performs active learning to select sequences to be labeled based on cluster and classification uncertainty. When the two components are simultaneously trained on skeleton-based action sequences, they correspond to a robust system for action recognition with only a handful of labeled samples. We evaluate our system on common datasets with multiple sequences and actions, such as NW UCLA, NTU RGB+D 60, and UWA3D. Our results outperform standalone skeleton-based supervised, unsupervised with cluster identification, and active-learning methods for action recognition when applied to sparse labeled samples, as low as 1% of the data.
updated: Mon Dec 07 2020 20:28:54 GMT+0000 (UTC)
published: Thu Dec 03 2020 07:48:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト