AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures
 ビデオを表現することを学ぶことは、アルゴリズム的にも計算的にも非常に困難な作業です。標準のビデオCNNアーキテクチャは、画像を理解するために考案されたアーキテクチャを直接拡張して時間次元を含めるか、3D畳み込みなどのモジュールを使用するか、2ストリーム設計を使用してビデオの外観とモーションの両方をキャプチャすることによって設計されています。私たちは、ビデオCNNを相互に接続されたマルチストリーム畳み込みブロックのコレクションとして解釈し、より良い接続性とビデオを理解するための時空間相互作用を備えたニューラルアーキテクチャを自動的に見つけるアプローチを提案します。これは、接続の重みの学習によって導かれる過度に接続されたアーキテクチャの人口を進化させることによって行われます。複数の時間解像度でさまざまな入力タイプ(つまり、RGBとオプティカルフロー)を抽象化する表現を組み合わせたアーキテクチャが検索され、さまざまなタイプまたは情報源が相互に対話できるようになります。 AssembleNetと呼ばれるこの方法は、公開ビデオデータセットに対する以前のアプローチよりも、場合によっては大幅に優れています。 Charadesで58.6%のmAP、Moments-in-Timeで34.27%の精度を取得します。
Learning to represent videos is a very challenging task both algorithmically and computationally. Standard video CNN architectures have been designed by directly extending architectures devised for image understanding to include the time dimension, using modules such as 3D convolutions, or by using two-stream design to capture both appearance and motion in videos. We interpret a video CNN as a collection of multi-stream convolutional blocks connected to each other, and propose the approach of automatically finding neural architectures with better connectivity and spatio-temporal interactions for video understanding. This is done by evolving a population of overly-connected architectures guided by connection weight learning. Architectures combining representations that abstract different input types (i.e., RGB and optical flow) at multiple temporal resolutions are searched for, allowing different types or sources of information to interact with each other. Our method, referred to as AssembleNet, outperforms prior approaches on public video datasets, in some cases by a great margin. We obtain 58.6% mAP on Charades and 34.27% accuracy on Moments-in-Time.
updated: Wed May 27 2020 15:56:37 GMT+0000 (UTC)
published: Thu May 30 2019 17:51:03 GMT+0000 (UTC)
