Target-Specific Action Classification for Automated Assessment of Human Motor Behavior from Video
  人間の運動行動の客観的な監視と評価は、いくつかの病状の診断と管理を改善できます。過去10年間、ウェアラブル技術を使用して、自由な生活条件での人間の運動行動を継続的に監視するための大きな進歩がありました。ただし、ウェアラブルテクノロジーは、複雑な運動行動の監視と解釈を必要とするアプリケーション(例:環境との相互作用を含む)には不適当なままです。コンピュータビジョンとディープラーニングの最近の進歩により、ビデオ録画から情報を抽出する新しい可能性が開かれました。この論文では、単一のRGBカメラを使用して行われたビデオ録画における基本的な人間の行動を分類するための、階層的な視覚ベースの行動表現型分類法を提示します。私たちの方法は、さまざまな視野を持つ変化する環境で記録されたビデオの複数の人間の俳優の追跡とアクションの分類に関連する課題に対処します。短期追跡用の検出と長期追跡用の外観ベースのトラックレット融合の一時的な関係を使用するカスケードポーズトラッカーを実装します。さらに、アクション分類のために、畳み込みニューラルネットワークをトレーニングするための運動シーケンスの低次元で解釈可能な表現として、カスケードポーズトラッカーから派生したポーズ進化マップを使用します。カスケードポーズトラッカーは、ビデオ録画でターゲットの人間の俳優を追跡する際の平均精度88 \%を達成し、システム全体は、トリミングされていないビデオ録画でのターゲット固有のアクション分類の平均テスト精度84 \%を実現します。
Objective monitoring and assessment of human motor behavior can improve the diagnosis and management of several medical conditions. Over the past decade, significant advances have been made in the use of wearable technology for continuously monitoring human motor behavior in free-living conditions. However, wearable technology remains ill-suited for applications which require monitoring and interpretation of complex motor behaviors (e.g. involving interactions with the environment). Recent advances in computer vision and deep learning have opened up new possibilities for extracting information from video recordings. In this paper, we present a hierarchical vision-based behavior phenotyping method for classification of basic human actions in video recordings performed using a single RGB camera. Our method addresses challenges associated with tracking multiple human actors and classification of actions in videos recorded in changing environments with different fields of view. We implement a cascaded pose tracker that uses temporal relationships between detections for short-term tracking and appearance-based tracklet fusion for long-term tracking. Furthermore, for action classification, we use pose evolution maps derived from the cascaded pose tracker as low-dimensional and interpretable representations of the movement sequences for training a convolutional neural network. The cascaded pose tracker achieves an average accuracy of 88\% in tracking the target human actor in our video recordings, and overall system achieves average test accuracy of 84\% for target-specific action classification in untrimmed video recordings.
