高齢者の日常活動の視覚ベースの行動認識のための深層学習モデルをトレーニングするには、さまざまな日常生活環境および条件下で取得された大規模な活動データセットが必要です。ただし、人間の行動認識に使用されるほとんどの公開データセットは、多くの面で高齢者の活動とは異なるか、対象範囲が限られているため、既存のデータセットのみを利用して高齢者の日常活動をうまく認識することは困難です。最近、利用可能なデータセットのこのような制限は、現実的なシミュレーション環境から合成データを生成し、それらのデータを使用して深層学習モデルをトレーニングすることによって積極的に補償されています。この論文では、これらのアイデアに基づいて、高齢者の日常活動に関する合成データを生成できるアクションシミュレーションプラットフォームであるElderSimを開発します。 ElderSimは、55種類の高齢者の日常的な活動に対して、さまざまな調整可能なデータ生成オプションを使用して合成文字のリアルなモーションを生成し、RGBビデオ、2次元および3次元のスケルトン軌道などのさまざまな出力モダリティを提供します。次に、ElderSimから高齢者の日常生活動作の大規模な合成データセットであるKIST SynADLを生成し、実際のデータセットに加えてそのデータを使用して、3つの最先端の人間行動認識モデルをトレーニングします。トレーニング用に異なる実際のデータセット構成と合成データセット構成を想定するいくつかの新しく提案されたシナリオに続く実験から、合成データを拡張することにより、顕著なパフォーマンスの向上が見られます。また、高齢者の日常生活を認識するための合成データの有効活用に関する洞察を盛り込んだガイダンスも提供しています。
To train deep learning models for vision-based action recognition of elders' daily activities, we need large-scale activity datasets acquired under various daily living environments and conditions. However, most public datasets used in human action recognition either differ from or have limited coverage of elders' activities in many aspects, making it challenging to recognize elders' daily activities well by only utilizing existing datasets. Recently, such limitations of available datasets have actively been compensated by generating synthetic data from realistic simulation environments and using those data to train deep learning models. In this paper, based on these ideas we develop ElderSim, an action simulation platform that can generate synthetic data on elders' daily activities. For 55 kinds of frequent daily activities of the elders, ElderSim generates realistic motions of synthetic characters with various adjustable data-generating options, and provides different output modalities including RGB videos, two- and three-dimensional skeleton trajectories. We then generate KIST SynADL, a large-scale synthetic dataset of elders' activities of daily living, from ElderSim and use the data in addition to real datasets to train three state-of the-art human action recognition models. From the experiments following several newly proposed scenarios that assume different real and synthetic dataset configurations for training, we observe a noticeable performance improvement by augmenting our synthetic data. We also offer guidance with insights for the effective utilization of synthetic data to help recognize elders' daily activities.