arXiv reaDer
JRDB-Act:時空間行動、社会集団および活動検出のための大規模データセット
JRDB-Act: A Large-scale Dataset for Spatio-temporal Action, Social Group and Activity Detection
大規模なビデオアクション理解データセットの可用性は、人々を含む視覚シーンの解釈の進歩を促進しました。ただし、移動ロボットプラットフォームからキャプチャされた感覚データのストリームから、潜在的に非常に不均衡でロングテールの分散アクションラベルを使用して、多数の人々で構成される制約のない現実世界の環境で人間の行動とその社会的相互作用を認識することを学ぶことは、依然として重要な課題です。特に、反射的な大規模データセットがないためです。本稿では、既存のJRDBの拡張として、ソーシャルモバイルマニピュレータによってキャプチャされ、大学のキャンパス環境における人間の日常生活の実際の分布を反映するJRDB-Actを紹介します。 JRDB-Actは、アトミックアクションで高密度に注釈が付けられており、280万を超えるアクションラベルで構成され、大規模な時空間アクション検出データセットを構成しています。各人間の境界ボックスには、1つのポーズベースのアクションラベルと複数の〜(オプション)のインタラクションベースのアクションラベルが付けられています。さらに、JRDB-Actは、シーン内の相互作用に基づいて個人をグループ化し、社会的活動を推測するタスクに役立つ社会的グループ注釈を提供します〜(各社会的グループの共通の活動)。 JRDB-Actの各注釈付きラベルには、信頼できる評価戦略の開発に貢献する注釈者の信頼水準がタグ付けされています。このようなアノテーションを効果的に利用する方法を示すために、エンドツーエンドのトレーニング可能なパイプラインを開発して、これらのタスク、つまり個人の行動や社会集団の検出を学習および推測します。データと評価コードはhttps://jrdb.erc.monash.edu/で公開されています。
The availability of large-scale video action understanding datasets has facilitated advances in the interpretation of visual scenes containing people. However, learning to recognise human actions and their social interactions in an unconstrained real-world environment comprising numerous people, with potentially highly unbalanced and long-tailed distributed action labels from a stream of sensory data captured from a mobile robot platform remains a significant challenge, not least owing to the lack of a reflective large-scale dataset. In this paper, we introduce JRDB-Act, as an extension of the existing JRDB, which is captured by a social mobile manipulator and reflects a real distribution of human daily-life actions in a university campus environment. JRDB-Act has been densely annotated with atomic actions, comprises over 2.8M action labels, constituting a large-scale spatio-temporal action detection dataset. Each human bounding box is labeled with one pose-based action label and multiple~(optional) interaction-based action labels. Moreover JRDB-Act provides social group annotation, conducive to the task of grouping individuals based on their interactions in the scene to infer their social activities~(common activities in each social group). Each annotated label in JRDB-Act is tagged with the annotators' confidence level which contributes to the development of reliable evaluation strategies. In order to demonstrate how one can effectively utilise such annotations, we develop an end-to-end trainable pipeline to learn and infer these tasks, i.e. individual action and social group detection. The data and the evaluation code is publicly available at https://jrdb.erc.monash.edu/.
updated: Wed Nov 24 2021 04:40:27 GMT+0000 (UTC)
published: Wed Jun 16 2021 14:43:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト