Deep Concept-wise Temporal Convolutional Networks for Action Localization
  既存のアクションローカリゼーションアプローチは、ビデオフレームから抽出された1D特徴マップで浅い時間たたみ込みネットワーク(\ ie、TCN)を採用しています。この論文では、より一般的な時間畳み込みレイヤーを積み重ねると、実際にはアクション分類パフォーマンスが低下することを経験的に発見しました。これは、一般的に非常に抽象的で潜在概念と見なすことができる1D特徴マップのすべてのチャネルが時間畳み込みで過度に再結合されるためです。この問題に対処するには、より深いアクションのローカリゼーションネットワークをトレーニングするための従来の時間畳み込み層の代替として、新しい概念的な時間畳み込み(CTC)層を導入します。 CTCレイヤーは、潜在概念を再結合する代わりに、概念全体で共有されたフィルターパラメーターを使用して、各概念に個別に多数の一時フィルターを展開します。したがって、異なる概念の一般的な時間的パターンをキャプチャし、表現能力を大幅に向上させることができます。 CTCレイヤーを積み重ねることで、ディープコンセプトワイズ時間的畳み込みネットワーク(C-TCN)を提案しました。これにより、THUMOS'14の最先端のアクションローカリゼーションパフォーマンスがmAP(\%)で42.8から52.1に向上します。 、21.7 \%の相対的な改善を達成しています。 ActivityNetでも良好な結果が得られています。
Existing action localization approaches adopt shallow temporal convolutional networks (\ie, TCN) on 1D feature map extracted from video frames. In this paper, we empirically find that stacking more conventional temporal convolution layers actually deteriorates action classification performance, possibly ascribing to that all channels of 1D feature map, which generally are highly abstract and can be regarded as latent concepts, are excessively recombined in temporal convolution. To address this issue, we introduce a novel concept-wise temporal convolution (CTC) layer as an alternative to conventional temporal convolution layer for training deeper action localization networks. Instead of recombining latent concepts, CTC layer deploys a number of temporal filters to each concept separately with shared filter parameters across concepts. Thus can capture common temporal patterns of different concepts and significantly enrich representation ability. Via stacking CTC layers, we proposed a deep concept-wise temporal convolutional network (C-TCN), which boosts the state-of-the-art action localization performance on THUMOS'14 from 42.8 to 52.1 in terms of mAP(\%), achieving a relative improvement of 21.7\%. Favorable result is also obtained on ActivityNet.
