arXiv reaDer
人間中心のビデオの要約のための感情的な視覚情報の使用
Use of Affective Visual Information for Summarization of Human-Centric Videos
ユーザーが生成する人間中心のビデオコンテンツとそのアプリケーション(ビデオ検索やブラウジングなど)の量が増えると、ビデオ要約の文献で取り上げられているコンパクトな表現が必要になります。現在の教師あり研究では、ビデオの要約をシーケンス間の学習問題として定式化しており、既存のソリューションでは、本質的に感情的なコンテンツを含む人間中心のビューの急増を無視することがよくあります。この研究では、人間中心のビデオの感情情報が豊富な監視付きビデオ要約タスクを調査します。まず、感情属性を推定するために、RECOLAデータセットで視覚入力駆動型の最先端の連続感情認識モデル(CER-NET)をトレーニングします。次に、推定された感情属性とCER-NETからの高レベルの表現を視覚情報と統合して、提案された感情的なビデオ要約アーキテクチャ(AVSUM)を定義します。さらに、AVSUMアーキテクチャを改善するための注意の使用を調査し、時間的注意(TA-AVSUM)と空間的注意(SA-AVSUM)に基づく2つの新しいアーキテクチャを提案します。 TvSumデータベースでビデオ要約実験を実施します。高レベルのGRU埋め込みと一時的な注意に基づくTA-AVSUMアーキテクチャの早期融合を備えた提案されたAVSUM-GRUアーキテクチャは、最先端のビデオと比較して人間中心のビデオのパフォーマンスを大幅に向上させることにより、競争力のあるビデオ要約パフォーマンスを実現しますFスコアと自己定義の顔想起メトリックの観点から。
Increasing volume of user-generated human-centric video content and their applications, such as video retrieval and browsing, require compact representations that are addressed by the video summarization literature. Current supervised studies formulate video summarization as a sequence-to-sequence learning problem and the existing solutions often neglect the surge of human-centric view, which inherently contains affective content. In this study, we investigate the affective-information enriched supervised video summarization task for human-centric videos. First, we train a visual input-driven state-of-the-art continuous emotion recognition model (CER-NET) on the RECOLA dataset to estimate emotional attributes. Then, we integrate the estimated emotional attributes and the high-level representations from the CER-NET with the visual information to define the proposed affective video summarization architectures (AVSUM). In addition, we investigate the use of attention to improve the AVSUM architectures and propose two new architectures based on temporal attention (TA-AVSUM) and spatial attention (SA-AVSUM). We conduct video summarization experiments on the TvSum database. The proposed AVSUM-GRU architecture with an early fusion of high level GRU embeddings and the temporal attention based TA-AVSUM architecture attain competitive video summarization performances by bringing strong performance improvements for the human-centric videos compared to the state-of-the-art in terms of F-score and self-defined face recall metrics.
updated: Thu Jul 08 2021 11:46:04 GMT+0000 (UTC)
published: Thu Jul 08 2021 11:46:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト