深層学習モデルの成功により、著名なビデオ理解手法による適応と採用が行われるようになりました。これらのアプローチの大部分は、内部の仕組みや学習された表現を視覚的に解釈することが難しい、統合時空間モダリティで特徴をエンコードします。我々は、モデルの内部時空間表現からビデオを合成するためのアーキテクチャに依存しない手法である LEArned Precious Synthesis (LEAPS) を提案します。刺激ビデオとターゲット クラスを使用して、固定時空モデルをプライミングし、ランダム ノイズで初期化されたビデオを繰り返し最適化します。追加の正則化機能を使用して、動きのクロスフレーム時間的一貫性とともに、合成ビデオの機能の多様性を向上させます。私たちは、Kinetics-400 でトレーニングされた一連の時空間畳み込みおよび注意ベースのアーキテクチャを反転することによって、LEAPS の適用可能性を定量的および定性的に評価します。これは、私たちの知る限り、これまでに達成されていませんでした。
The success of deep learning models has led to their adaptation and adoption by prominent video understanding methods. The majority of these approaches encode features in a joint space-time modality for which the inner workings and learned representations are difficult to visually interpret. We propose LEArned Preconscious Synthesis (LEAPS), an architecture-independent method for synthesizing videos from the internal spatiotemporal representations of models. Using a stimulus video and a target class, we prime a fixed space-time model and iteratively optimize a video initialized with random noise. Additional regularizers are used to improve the feature diversity of the synthesized videos alongside the cross-frame temporal coherence of motions. We quantitatively and qualitatively evaluate the applicability of LEAPS by inverting a range of spatiotemporal convolutional and attention-based architectures trained on Kinetics-400, which to the best of our knowledge has not been previously accomplished.