ビデオの豊富な動的構造と日常生活におけるユビキタス性のため、ビデオデータは、ディープニューラルネットワークで視覚表現をトレーニングするための強力な教師なし学習信号として役立つ可能性があることは自然な考えです。ただし、特に大規模にこのアイデアを具体化することは、重要な人工知能の課題のままでした。ここでは、大規模なビデオデータセットのマルチストリーム時間処理アーキテクチャに深い非線形埋め込みを学習するための強力な最近の教師なし損失関数を拡張するVideo Instance Embedding(VIE)フレームワークを紹介します。 VIEでトレーニングされたネットワークは、Kineticsデータセットでのアクション認識とImageNetデータセットでのオブジェクト認識の両方で、ビデオデータストリームからの教師なし学習の技術水準を大幅に向上させることを示します。静的および動的処理経路の両方を備えたハイブリッドモデルが両方の転送タスクに最適であることを示し、経路の違いを示す分析を提供します。文脈からすると、我々の結果は、深層神経埋め込みが、さまざまな領域にわたる教師なし視覚学習への有望なアプローチであることを示唆しています。
Because of the rich dynamical structure of videos and their ubiquity in everyday life, it is a natural idea that video data could serve as a powerful unsupervised learning signal for training visual representations in deep neural networks. However, instantiating this idea, especially at large scale, has remained a significant artificial intelligence challenge. Here we present the Video Instance Embedding (VIE) framework, which extends powerful recent unsupervised loss functions for learning deep nonlinear embeddings to multi-stream temporal processing architectures on large-scale video datasets. We show that VIE-trained networks substantially advance the state of the art in unsupervised learning from video datastreams, both for action recognition in the Kinetics dataset, and object recognition in the ImageNet dataset. We show that a hybrid model with both static and dynamic processing pathways is optimal for both transfer tasks, and provide analyses indicating how the pathways differ. Taken in context, our results suggest that deep neural embeddings are a promising approach to unsupervised visual learning across a wide variety of domains.