arXiv reaDer
クラウドビデオキャプション
Crowd Video Captioning
 ビデオを自然言語で自動的に記述することは、コンピュータービジョンの分野では難しい作業です。ほとんどの場合、素晴らしい出来事の現場の状況はニュースで報告されますが、入口と出口の敷地外の観客の状況は無視され、人々の興味をそそります。入り口と出口に記者を配置するには多くの人手がかかるため、オフサイトの観客の行動を自動的に記述する方法は重要であり、問題が残っています。この問題に取り組むために、観客の群衆を説明することを目的としたクラウドビデオキャプション(CVC)と呼ばれる新しいタスクを提案します。また、このタスクのベースラインメソッドを提供し、WorldExpo'10データセットで評価します。私たちの実験結果は、キャプションモデルがビデオの群衆をかなり深く理解しており、CVCタスクで十分に機能することを示しています。
Describing a video automatically with natural language is a challenging task in the area of computer vision. In most cases, the on-site situation of great events is reported in news, but the situation of the off-site spectators in the entrance and exit is neglected which also arouses people's interest. Since the deployment of reporters in the entrance and exit costs lots of manpower, how to automatically describe the behavior of a crowd of off-site spectators is significant and remains a problem. To tackle this problem, we propose a new task called crowd video captioning (CVC) which aims to describe the crowd of spectators. We also provide baseline methods for this task and evaluate them on the dataset WorldExpo'10. Our experimental results show that captioning models have a fairly deep understanding of the crowd in video and perform satisfactorily in the CVC task.
updated: Wed Nov 13 2019 13:38:17 GMT+0000 (UTC)
published: Wed Nov 13 2019 13:38:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト