arXiv reaDer
見えないことを言う:ダイアログエージェントを介したビデオの説明
Saying the Unseen: Video Descriptions via Dialog Agents
現在の視覚および言語タスクは通常、入力として完全な視覚データ(生の画像やビデオなど)を取りますが、実際のシナリオは、固定カメラでの制限されたビューやセキュリティ上の懸念に対する意図的なビジョンブロック。より実用的なアプリケーションシナリオへのステップとして、不完全な視覚データが与えられた補足情報ソースとして2つのエージェント間の自然言語ダイアログを使用してビデオを記述することを目的とした新しいタスクを紹介します。 AIシステムが画像やビデオクリップに完全にアクセスできる既存のほとんどの視覚言語タスクとは異なり、認識可能な人間の顔や声などの機密情報が明らかになる可能性がありますが、AIシステムの視覚入力を意図的に制限し、より安全で透明な情報を求めています不足している視覚情報を補足するための媒体、つまり自然言語ダイアログ。具体的には、インテリジェントエージェントの1つであるQ-BOTには、ビデオの最初と最後から2つのセマンティックセグメント化フレームが与えられ、目に見えないビデオを説明する前に、関連する自然言語の質問をする機会が限られています。ビデオ全体にアクセスできるもう1つのエージェントであるA-BOTは、質問に答えることでQ-BOTが目標を達成するのを支援します。生成的(つまり、エージェントが質問と回答を自由に生成する)または識別的(つまり、エージェントが候補者から質問と回答を選択する)内部ダイアログ生成プロセスのいずれかを使用した2つの異なる実験設定を紹介します。提案された統合QA協調ネットワークを使用して、2つのダイアログエージェント間の知識伝達プロセスと、不完全な暗黙のビジョンの補足として自然言語ダイアログを使用することの有効性を実験的に示します。
Current vision and language tasks usually take complete visual data (e.g., raw images or videos) as input, however, practical scenarios may often consist the situations where part of the visual information becomes inaccessible due to various reasons e.g., restricted view with fixed camera or intentional vision block for security concerns. As a step towards the more practical application scenarios, we introduce a novel task that aims to describe a video using the natural language dialog between two agents as a supplementary information source given incomplete visual data. Different from most existing vision-language tasks where AI systems have full access to images or video clips, which may reveal sensitive information such as recognizable human faces or voices, we intentionally limit the visual input for AI systems and seek a more secure and transparent information medium, i.e., the natural language dialog, to supplement the missing visual information. Specifically, one of the intelligent agents - Q-BOT - is given two semantic segmented frames from the beginning and the end of the video, as well as a finite number of opportunities to ask relevant natural language questions before describing the unseen video. A-BOT, the other agent who has access to the entire video, assists Q-BOT to accomplish the goal by answering the asked questions. We introduce two different experimental settings with either a generative (i.e., agents generate questions and answers freely) or a discriminative (i.e., agents select the questions and answers from candidates) internal dialog generation process. With the proposed unified QA-Cooperative networks, we experimentally demonstrate the knowledge transfer process between the two dialog agents and the effectiveness of using the natural language dialog as a supplement for incomplete implicit visions.
updated: Sat Jun 26 2021 17:36:31 GMT+0000 (UTC)
published: Sat Jun 26 2021 17:36:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト