自閉症のスキル評価のための診断および介入の方法論では、通常、臨床医がいくつかの刺激を繰り返し開始し、子供の反応を記録する必要があります。この論文では、ビデオからの人間の行動認識にディープニューラルモデルを使用した後、シーンのビデオ録画を通じて応答測定を自動化することを提案します。ただし、ニューラルネットワークの教師付き学習には、手に入れるのが難しい大量の注釈付きデータが必要です。この問題は、公開されている大規模なビデオアクション(ソース)データセットと対象のデータセットのアクションカテゴリ間の「類似性」を活用することで対処されています。ガイド付き弱監視と呼ばれる手法が提案されます。この手法では、事後尤度最大化の原理を使用して、ターゲットデータ内のすべてのクラスがソースデータ内のクラスに一致します。その後、一致したソースクラスからのサンプルを追加することにより、ターゲットデータの分類器が再トレーニングされ、クラス間の分離性を促進する新しい損失が加えられます。提案された方法は、2つのスキル評価自閉症データセット、SSBDおよび自閉症と診断された年齢と民族の異なる37人の子供を含む現実世界の自閉症データセットで評価されます。提案された方法は、乏しいデータによる監視にもかかわらず、最先端のマルチクラス人間行動認識モデルのパフォーマンスを改善することがわかっています。
Diagnostic and intervention methodologies for skill assessment of autism typically requires a clinician repetitively initiating several stimuli and recording the child's response. In this paper, we propose to automate the response measurement through video recording of the scene following the use of Deep Neural models for human action recognition from videos. However, supervised learning of neural networks demand large amounts of annotated data that are hard to come by. This issue is addressed by leveraging the `similarities' between the action categories in publicly available large-scale video action (source) datasets and the dataset of interest. A technique called guided weak supervision is proposed, where every class in the target data is matched to a class in the source data using the principle of posterior likelihood maximization. Subsequently, classifier on the target data is re-trained by augmenting samples from the matched source classes, along with a new loss encouraging inter-class separability. The proposed method is evaluated on two skill assessment autism datasets, SSBD and a real world Autism dataset comprising 37 children of different ages and ethnicity who are diagnosed with autism. Our proposed method is found to improve the performance of the state-of-the-art multi-class human action recognition models in-spite of supervision with scarce data.