時間情報と視覚世界の経時変化を理解することは、インテリジェントシステムの基本的な能力です。ビデオの理解において、時間情報は、圧縮、効率的な推論、モーション推定、または要約を含む多くの現在の課題の中心にあります。ただし、現在のビデオデータセットでは、ビデオの単一フレームからの一時的な情報がなくてもアクションクラスを認識できることがよくあります。その結果、これらのデータセットのベンチマークとトレーニングの両方は、強い時間的理解を持つモデルとは対照的に、強力な画像理解機能を持つモデルに意図しない利点を与える可能性があります。この論文では、実際にそれらを認識するために一時的な情報が必要なアクションクラスを特定し、これらを「一時的なクラス」と呼ぶことにより、この問題に対処します。計算方法を使用して時間クラスを選択すると、プロセスにバイアスがかかります。代わりに、シンプルで効果的な人間の注釈実験に基づく方法論を提案します。時間内にフレームをシャッフルすることで一時的な情報のみを削除し、アクションがまだ認識できるかどうかを測定します。フレームが順序どおりでない場合に認識できないクラスは、一時データセットに含まれます。このセットは、他の静的クラスとは統計的に異なり、そのパフォーマンスは、一時的な情報をキャプチャするネットワークの能力と相関していることがわかります。したがって、現在の一般的なネットワークのベンチマークとして使用し、一連の興味深い事実を明らかにします。また、テンポラルデータセットに対するトレーニングの効果を調査し、これにより、目に見えないクラスのより良い一般化につながることを観察し、より多くのテンポラルデータの必要性を示します。時間カテゴリの提案されたデータセットが、ビデオの理解を深めるための時間モデリングの今後の研究の指針となることを願っています。
Understanding temporal information and how the visual world changes over time is a fundamental ability of intelligent systems. In video understanding, temporal information is at the core of many current challenges, including compression, efficient inference, motion estimation or summarization. However, in current video datasets it has been observed that action classes can often be recognized without any temporal information from a single frame of video. As a result, both benchmarking and training in these datasets may give an unintentional advantage to models with strong image understanding capabilities, as opposed to those with strong temporal understanding. In this paper we address this problem head on by identifying action classes where temporal information is actually necessary to recognize them and call these "temporal classes". Selecting temporal classes using a computational method would bias the process. Instead, we propose a methodology based on a simple and effective human annotation experiment. We remove just the temporal information by shuffling frames in time and measure if the action can still be recognized. Classes that cannot be recognized when frames are not in order are included in the temporal Dataset. We observe that this set is statistically different from other static classes, and that performance in it correlates with a network's ability to capture temporal information. Thus we use it as a benchmark on current popular networks, which reveals a series of interesting facts. We also explore the effect of training on the temporal dataset, and observe that this leads to better generalization in unseen classes, demonstrating the need for more temporal data. We hope that the proposed dataset of temporal categories will help guide future research in temporal modeling for better video understanding.