arXiv reaDer
Cooperative Cross-Stream Network for Discriminative Action Representation
  空間的および時間的ストリームモデルは、ビデオアクション認識で大きな成功を収めています。既存のほとんどの作品は、2ストリームモデルを別の方法でトレーニングする効果的な機能の融合方法の設計により注意を払っています。しかし、既存の作品の識別可能性を確保し、異なるストリーム間で補足情報を探索することは困難です。この作業では、複数の異なるモダリティで結合情報を調査する新しい協調型クロスストリームネットワークを提案します。共同の空間的および時間的ストリームネットワークの特徴抽出は、エンドツーエンドの学習方法によって実現されます。接続ブロックからさまざまなモダリティのこの補足情報を抽出し、さまざまなストリーム機能の相関関係を調査することを目的としています。さらに、1つのクロスエントロピー損失のみで深い分離可能な特徴を学習する従来のConvNetとは異なり、提案されたモデルは、モダリティのランキング制約とクロス同種および異種モダリティの両方のエントロピー損失。モダリティランキング制約は、モダリティ内識別埋め込みとモダリティ間トリプレット制約を構成し、モダリティ内およびモダリティ間特徴の両方のバリエーションを減らします。 3つのベンチマークデータセットでの実験は、外観と動きの特徴抽出を連携させることにより、本方法が既存の結果と比較して最先端または競争力のあるパフォーマンスを達成できることを示しています。
Spatial and temporal stream model has gained great success in video action recognition. Most existing works pay more attention to designing effective features fusion methods, which train the two-stream model in a separate way. However, it's hard to ensure discriminability and explore complementary information between different streams in existing works. In this work, we propose a novel cooperative cross-stream network that investigates the conjoint information in multiple different modalities. The jointly spatial and temporal stream networks feature extraction is accomplished by an end-to-end learning manner. It extracts this complementary information of different modality from a connection block, which aims at exploring correlations of different stream features. Furthermore, different from the conventional ConvNet that learns the deep separable features with only one cross-entropy loss, our proposed model enhances the discriminative power of the deeply learned features and reduces the undesired modality discrepancy by jointly optimizing a modality ranking constraint and a cross-entropy loss for both homogeneous and heterogeneous modalities. The modality ranking constraint constitutes intra-modality discriminative embedding and inter-modality triplet constraint, and it reduces both the intra-modality and cross-modality feature variations. Experiments on three benchmark datasets demonstrate that by cooperating appearance and motion feature extraction, our method can achieve state-of-the-art or competitive performance compared with existing results.
updated: Tue Aug 27 2019 11:23:34 GMT+0000 (UTC)
published: Tue Aug 27 2019 11:23:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト