Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding
 世界で発生するイベントは、多くの場合、数秒以内に同時にまたは連続して展開できるさまざまなアクティビティとアクションで構成されます。ただし、アクション認識用のモデルをトレーニングするために構築されたほとんどの大規模なデータセットは、ビデオクリップごとに単一のラベルを提供します。その結果、ビデオに存在するアクションを分類するためにモデルが誤って罰せられる可能性がありますが、明示的にラベル付けされておらず、異なるイベントをより完全に理解し、最終的にそれらの間の因果関係を学習するために必須となる情報の全範囲を学習しません。この目標に向けて、既存のビデオデータセットであるMoments in Time(MiT)を拡張し、100万を超える3秒のビデオに200万を超えるアクションラベルを追加しました。このマルチラベルデータセットは、マルチアクション検出用のモデルをトレーニングおよび分析する方法に関する新たな課題をもたらします。ここでは、ロングテールマルチラベル学習に適合した損失関数を使用したマルチアクション認識のベースライン結果を提示し、マルチラベルアクション検出用にトレーニングされたモデルを視覚化および解釈するための改善された方法を提供します。
An event happening in the world is often made of different activities and actions that can unfold simultaneously or sequentially within a few seconds. However, most large-scale datasets built to train models for action recognition provide a single label per video clip. Consequently, models can be incorrectly penalized for classifying actions that exist in the videos but are not explicitly labeled and do not learn the full spectrum of information that would be mandatory to more completely comprehend different events and eventually learn causality between them. Towards this goal, we augmented the existing video dataset, Moments in Time (MiT), to include over two million action labels for over one million three second videos. This multi-label dataset introduces novel challenges on how to train and analyze models for multi-action detection. Here, we present baseline results for multi-action recognition using loss functions adapted for long tail multi-label learning and provide improved methods for visualizing and interpreting models trained for multi-label action detection.
updated: Fri Jan 10 2020 00:24:30 GMT+0000 (UTC)
published: Fri Nov 01 2019 07:09:36 GMT+0000 (UTC)
