ビデオは、通常、わずか数秒の間に複数の連続した同時アクションを含むイベントをキャプチャします。ただし、ビデオでのアクション認識のモデルをトレーニングするために構築されたほとんどの大規模データセットは、ビデオごとに1つのラベルしか提供しません。その結果、モデルは、ビデオに存在するが明示的にラベル付けされておらず、トレーニング中に各ビデオに存在する情報の全範囲を学習しないアクションを分類するために誤ってペナルティを課される可能性があります。この目標に向けて、100万を超える3秒のビデオの200万を超えるアクションラベルを含むMulti-Moments in Timeデータセット(M-MiT)を紹介します。このマルチラベルデータセットは、マルチアクション検出のためにモデルをトレーニングおよび分析する方法に関する新たな課題を紹介します。ここでは、ロングテールマルチラベル学習に適合した損失関数を使用したマルチアクション認識のベースライン結果を示し、マルチラベルアクション検出用にトレーニングされたモデルを視覚化および解釈するための改善された方法を提供し、M-MiTでトレーニングされたモデルを転送する強度を示しますより小さなデータセットに。
Videos capture events that typically contain multiple sequential, and simultaneous, actions even in the span of only a few seconds. However, most large-scale datasets built to train models for action recognition in video only provide a single label per video. Consequently, models can be incorrectly penalized for classifying actions that exist in the videos but are not explicitly labeled and do not learn the full spectrum of information present in each video in training. Towards this goal, we present the Multi-Moments in Time dataset (M-MiT) which includes over two million action labels for over one million three second videos. This multi-label dataset introduces novel challenges on how to train and analyze models for multi-action detection. Here, we present baseline results for multi-action recognition using loss functions adapted for long tail multi-label learning, provide improved methods for visualizing and interpreting models trained for multi-label action detection and show the strength of transferring models trained on M-MiT to smaller datasets.