人間活動認識 (HAR) における堅牢で一般化されたモデルの開発は、大規模なラベル付きデータ セットの不足によって妨げられてきました。最近の研究では、コンピューター ビジョン技術を使用してビデオから抽出された仮想 IMU データが、実際の IMU データのごく一部と組み合わせて HAR モデルをトレーニングする場合に、大幅なパフォーマンスの向上につながることが示されています。テキスト記述からのモーション合成と、大規模言語モデル (LLM) をさまざまな AI モデルに接続する最近の進歩に触発されて、最初に ChatGPT を使用してアクティビティの多様なテキスト記述を生成する自動化されたパイプラインを導入します。これらのテキスト記述は、モーション合成モデル T2M-GPT を介して 3D 人間のモーション シーケンスを生成するために使用され、後で仮想 IMU データのストリームに変換されます。 3 つの HAR データセット (RealWorld、PAMAP2、および USC-HAD) でアプローチをベンチマークし、新しいアプローチを使用して生成された仮想 IMU トレーニング データを使用すると、実際の IMU データのみを使用する場合と比較して、HAR モデルのパフォーマンスが大幅に向上することを実証しました。私たちのアプローチは、クロスモダリティ転送方法の成長分野に貢献し、手作業を必要としない仮想トレーニング データの生成を通じて HAR モデルをどのように改善できるかを示しています。
The development of robust, generalized models in human activity recognition (HAR) has been hindered by the scarcity of large-scale, labeled data sets. Recent work has shown that virtual IMU data extracted from videos using computer vision techniques can lead to substantial performance improvements when training HAR models combined with small portions of real IMU data. Inspired by recent advances in motion synthesis from textual descriptions and connecting Large Language Models (LLMs) to various AI models, we introduce an automated pipeline that first uses ChatGPT to generate diverse textual descriptions of activities. These textual descriptions are then used to generate 3D human motion sequences via a motion synthesis model, T2M-GPT, and later converted to streams of virtual IMU data. We benchmarked our approach on three HAR datasets (RealWorld, PAMAP2, and USC-HAD) and demonstrate that the use of virtual IMU training data generated using our new approach leads to significantly improved HAR model performance compared to only using real IMU data. Our approach contributes to the growing field of cross-modality transfer methods and illustrate how HAR models can be improved through the generation of virtual training data that do not require any manual effort.