クラスが均一なラベル変換をもたらすビデオ変換を調査します。これらは、各クラスのすべてのビデオのラベルを一貫して維持または変更するビデオ変換です。変換された例がラベルを維持する不変クラスを発見する一般的なアプローチを提案します。変換された例がラベルを交換する等変クラスのペア。そして、その変換された例がデータセット外の新しいクラスに属する新しいクラスを生成します。ラベル変換は、これまでビデオ認識で未開拓だった追加の監督を提供し、データ増強の恩恵を受け、対応する変換されたビデオからクラスを学習することにより、ゼロショット学習の機会を可能にします。このようなビデオ変換の中で、水平反転、時間反転、およびそれらの構成を研究します。ビデオでのデータ増強の形式として水平反転を単純に使用する際のエラーを強調します。次に、人が順方向ビデオと時間反転ビデオを好むという人間の知覚調査を通じて、時間反転ビデオのリアリズムを検証します。最後に、JesterとSomething-Somethingの2つのデータセットでアプローチをテストし、ゼロショット学習とデータ増強のための3つのビデオ変換を評価します。私たちの結果は、ズームインなどのジェスチャーは、ゼロショット設定でズームアウトすることで学習できること、および何かを何かに埋めることから何かを掘り出すなどの状態遷移を伴うより複雑なアクションを学習できることを示しています。
We investigate video transforms that result in class-homogeneous label-transforms. These are video transforms that consistently maintain or modify the labels of all videos in each class. We propose a general approach to discover invariant classes, whose transformed examples maintain their label; pairs of equivariant classes, whose transformed examples exchange their labels; and novel-generating classes, whose transformed examples belong to a new class outside the dataset. Label transforms offer additional supervision previously unexplored in video recognition benefiting data augmentation and enabling zero-shot learning opportunities by learning a class from transformed videos of its counterpart. Amongst such video transforms, we study horizontal-flipping, time-reversal, and their composition. We highlight errors in naively using horizontal-flipping as a form of data augmentation in video. Next, we validate the realism of time-reversed videos through a human perception study where people exhibit equal preference for forward and time-reversed videos. Finally, we test our approach on two datasets, Jester and Something-Something, evaluating the three video transforms for zero-shot learning and data augmentation. Our results show that gestures such as zooming in can be learnt from zooming out in a zero-shot setting, as well as more complex actions with state transitions such as digging something out of something from burying something in something.