arXiv reaDer
WhyAct:ライフスタイルVlogのアクション理由の特定
WhyAct: Identifying Action Reasons in Lifestyle Vlogs
私たちは、オンライン動画で人間の行動の理由を自動的に特定することを目指しています。私たちは、人々が口頭で説明しながら行動を起こす、幅広いジャンルのライフスタイルvlogに焦点を当てています。理由が手動で注釈された1,077の視覚的アクションで構成されるWhyActデータセットを紹介し、公開します。視覚的およびテキスト情報を活用して、ビデオで提示されたアクションに対応する理由を自動的に推測するマルチモーダルモデルについて説明します。
We aim to automatically identify human action reasons in online videos. We focus on the widespread genre of lifestyle vlogs, in which people perform actions while verbally describing them. We introduce and make publicly available the WhyAct dataset, consisting of 1,077 visual actions manually annotated with their reasons. We describe a multimodal model that leverages visual and textual information to automatically infer the reasons corresponding to an action presented in the video.
updated: Thu Sep 09 2021 16:17:02 GMT+0000 (UTC)
published: Mon Sep 06 2021 21:26:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト