Video Classification with Channel-Separated Convolutional Networks
 グループたたみ込みは、画像分類のためのさまざまな2Dたたみ込みアーキテクチャで計算上の大きな節約を提供することが示されています。 1)グループ畳み込みがビデオ分類ネットワークの高い計算コストを軽減するのに役立つかどうか。 2)3Dグループたたみ込みネットワークで最も重要な要素。 3)3Dグループたたみ込みネットワークとの優れた計算/精度のトレードオフは何ですか。このホワイトペーパーでは、ビデオ分類のための3Dグループたたみ込みネットワークにおけるさまざまな設計選択の影響を調査します。チャネル相互作用の量が3Dグループたたみ込みネットワークの精度に重要な役割を果たすことを経験的に示しています。私たちの実験は、2つの主な結果を示唆しています。まず、チャネルの相互作用と時空間の相互作用を分離して3D畳み込みを因数分解することをお勧めします。これにより、精度が向上し、計算コストが削減されます。第二に、3Dチャネル分離畳み込みは正則化の形式を提供し、3D畳み込みに比べてトレーニング精度は低くなりますが、テスト精度は高くなります。これらの2つの経験的発見により、シンプルで効率的でありながら正確なアーキテクチャ(チャネル分離畳み込みネットワーク(CSN))を設計することができます。 Sports1M、Kinetics、Something-Somethingでは、CSNは最新技術と同等かそれ以上であり、効率は2〜3倍です。
Group convolution has been shown to offer great computational savings in various 2D convolutional architectures for image classification. It is natural to ask: 1) if group convolution can help to alleviate the high computational cost of video classification networks; 2) what factors matter the most in 3D group convolutional networks; and 3) what are good computation/accuracy trade-offs with 3D group convolutional networks. This paper studies the effects of different design choices in 3D group convolutional networks for video classification. We empirically demonstrate that the amount of channel interactions plays an important role in the accuracy of 3D group convolutional networks. Our experiments suggest two main findings. First, it is a good practice to factorize 3D convolutions by separating channel interactions and spatiotemporal interactions as this leads to improved accuracy and lower computational cost. Second, 3D channel-separated convolutions provide a form of regularization, yielding lower training accuracy but higher test accuracy compared to 3D convolutions. These two empirical findings lead us to design an architecture -- Channel-Separated Convolutional Network (CSN) -- which is simple, efficient, yet accurate. On Sports1M, Kinetics, and Something-Something, our CSNs are comparable with or better than the state-of-the-art while being 2-3 times more efficient.
updated: Mon Nov 18 2019 22:30:49 GMT+0000 (UTC)
published: Thu Apr 04 2019 22:28:24 GMT+0000 (UTC)
