ビデオ観察から、身体活動中に人間が使用するキロカロリーの量を自動的に推測する問題を調査します。この十分に研究されていないタスクを研究するために、Vid2Burnを紹介します。これは、医学文献で確立されたモデルに基づいてエネルギー消費の注釈を導出する、高強度と低強度の両方の活動を特徴とするビデオデータからカロリー消費を推定するためのオムニソースベンチマークです。実際には、トレーニングセットは特定の量のアクティビティタイプのみをカバーし、モデルが実際にエネルギー消費の本質を捉えているかどうかを検証することが重要です(たとえば、関与する筋肉の数と強度、およびそれらが機能する強度)トレーニング中に見られる特定の活動カテゴリの固定値を記憶する代わりに。理想的には、モデルはそのようなカテゴリ固有のバイアスを超えて、トレーニング中に明示的に存在しないアクティビティカテゴリを描いたビデオのカロリーコストを回帰する必要があります。この特性を念頭に置いて、Vid2Burnには、トレーニング中に存在しない種類の身体活動のカロリー消費を減らすことがタスクである、カテゴリ間のベンチマークが付属しています。エネルギー消費量推定タスク用に変更されたビデオ認識の最先端のアプローチの広範な評価は、この問題の難しさを示しており、特にテスト時の新しい活動タイプでは、新しい研究の方向性を示しています。データセットとコードはhttps://github.com/KPeng9510/Vid2Burnで入手できます。
We explore the problem of automatically inferring the amount of kilocalories used by human during physical activity from his/her video observation. To study this underresearched task, we introduce Vid2Burn -- an omni-source benchmark for estimating caloric expenditure from video data featuring both, high- and low-intensity activities for which we derive energy expenditure annotations based on models established in medical literature. In practice, a training set would only cover a certain amount of activity types, and it is important to validate, if the model indeed captures the essence of energy expenditure, (e.g., how many and which muscles are involved and how intense they work) instead of memorizing fixed values of specific activity categories seen during training. Ideally, the models should look beyond such category-specific biases and regress the caloric cost in videos depicting activity categories not explicitly present during training. With this property in mind, Vid2Burn is accompanied with a cross-category benchmark, where the task is to regress caloric expenditure for types of physical activities not present during training. An extensive evaluation of state-of-the-art approaches for video recognition modified for the energy expenditure estimation task demonstrates the difficulty of this problem, especially for new activity types at test-time, marking a new research direction. Dataset and code are available at https://github.com/KPeng9510/Vid2Burn.