arXiv reaDer
Watch, Listen and Tell: Multi-modal Weakly Supervised Dense Event Captioning
  マルチモーダル学習、特に画像処理と言語モダリティの間で、言語の基礎から高密度のイベントキャプションに至るまで、多くの高レベルの基本的な視覚的理解の問題で驚くべき進歩を遂げました。ただし、研究の多くは、ビデオに対応する音声をまったく考慮しないアプローチ、または音声または音源定位のサービスで視聴覚相関をモデル化するアプローチに限定されています。このホワイトペーパーでは、高レベルの視覚言語タスクに関して、オーディオ信号が驚くべき量の情報を運ぶことができるという証拠を示します。具体的には、ビデオの弱監視下の密集したイベントキャプションの問題に焦点を当て、オーディオ自体が最先端の視覚モデルのパフォーマンスにほぼ匹敵し、ビデオと組み合わせて、状態を改善できることを示します。最先端のパフォーマンス。 ActivityNet Captionsデータセットに関する広範な実験により、提案されたマルチモーダルアプローチが最先端のユニモーダル手法よりも優れていること、および特定の機能表現とアーキテクチャ設計の選択を検証することが示されています。
Multi-modal learning, particularly among imaging and linguistic modalities, has made amazing strides in many high-level fundamental visual understanding problems, ranging from language grounding to dense event captioning. However, much of the research has been limited to approaches that either do not take audio corresponding to video into account at all, or those that model the audio-visual correlations in service of sound or sound source localization. In this paper, we present the evidence, that audio signals can carry surprising amount of information when it comes to high-level visual-lingual tasks. Specifically, we focus on the problem of weakly-supervised dense event captioning in videos and show that audio on its own can nearly rival performance of a state-of-the-art visual model and, combined with video, can improve on the state-of-the-art performance. Extensive experiments on the ActivityNet Captions dataset show that our proposed multi-modal approach outperforms state-of-the-art unimodal methods, as well as validate specific feature representation and architecture design choices.
updated: Fri Oct 25 2019 08:42:41 GMT+0000 (UTC)
published: Sun Sep 22 2019 06:12:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト