arXiv reaDer
メディアの記憶力の予測:視覚的、テキスト的、聴覚的特徴の比較
Predicting Media Memorability: Comparing Visual, Textual and Auditory Features
このホワイトペーパーでは、MediaEval 2021でのメディアの記憶力の予測タスクへのアプローチについて説明します。これは、ビデオの記憶力を自動的に予測するタスクを設定することにより、メディアの記憶力の問題に対処することを目的としています。今年は、比較の観点からこの課題に取り組み、3つの調査されたモダリティのそれぞれについてより深い洞察を得ることを目指し、昨年の提出(2020)の結果を参照点として使用します。 TRECVid2019データセットでテストされた最高のパフォーマンスの短期記憶モデル(0.132)は、昨年と同様に、TRECVidデータでトレーニングされていないフレームベースのCNNであり、最高の短期記憶モデル(0.524)がテストされました。 Memento10kデータセットでは、DenseNet121の視覚的機能を備えたベイジアンライドリグレッサでした。
This paper describes our approach to the Predicting Media Memorability task in MediaEval 2021, which aims to address the question of media memorability by setting the task of automatically predicting video memorability. This year we tackle the task from a comparative standpoint, looking to gain deeper insights into each of three explored modalities, and using our results from last year's submission (2020) as a point of reference. Our best performing short-term memorability model (0.132) tested on the TRECVid2019 dataset -- just like last year -- was a frame based CNN that was not trained on any TRECVid data, and our best short-term memorability model (0.524) tested on the Memento10k dataset, was a Bayesian Ride Regressor fit with DenseNet121 visual features.
updated: Wed Dec 15 2021 08:42:49 GMT+0000 (UTC)
published: Wed Dec 15 2021 08:42:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト