arXiv reaDer
メルルーサ:人間活動を理解するためのナレッジエンジン財団
HAKE: A Knowledge Engine Foundation for Human Activity Understanding
人間の活動の理解は、人工知能に広く関心があり、ヘルスケアや行動分析などのさまざまなアプリケーションにまたがっています。ディープラーニングは進歩していますが、依然として困難です。オブジェクト認識のようなソリューションは通常、ピクセルをセマンティクスに直接マッピングしようとしますが、アクティビティパターンはオブジェクトパターンとは大きく異なるため、別の成功を妨げます。この作業では、このタスクを2段階で再定式化する新しいパラダイムを提案します。最初にピクセルをアトミックアクティビティプリミティブがまたがる中間空間にマッピングし、次に検出されたプリミティブを解釈可能な論理ルールでプログラミングしてセマンティクスを推測します。代表的なプリミティブスペースを提供するために、26 + Mのプリミティブラベルと、人間の事前情報または自動検出からの論理ルールを含むナレッジベースを構築します。私たちのフレームワークであるHumanActivity Knowledge Engine(HAKE)は、挑戦的なベンチマークでの標準的な方法に対して優れた一般化能力とパフォーマンスを示します。コードとデータはhttp://hake-mvig.cn/で入手できます。
Human activity understanding is of widespread interest in artificial intelligence and spans diverse applications like health care and behavior analysis. Although there have been advances with deep learning, it remains challenging. The object recognition-like solutions usually try to map pixels to semantics directly, but activity patterns are much different from object patterns, thus hindering another success. In this work, we propose a novel paradigm to reformulate this task in two-stage: first mapping pixels to an intermediate space spanned by atomic activity primitives, then programming detected primitives with interpretable logic rules to infer semantics. To afford a representative primitive space, we build a knowledge base including 26+ M primitive labels and logic rules from human priors or automatic discovering. Our framework, Human Activity Knowledge Engine (HAKE), exhibits superior generalization ability and performance upon canonical methods on challenging benchmarks. Code and data are available at http://hake-mvig.cn/.
updated: Mon Feb 14 2022 16:38:31 GMT+0000 (UTC)
published: Mon Feb 14 2022 16:38:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト