arXiv reaDer
視覚的対話における強化学習のための明示的な関係状態のモデリング
Modeling Explicit Concerning States for Reinforcement Learning in Visual Dialogue
AIエージェントが有意義なビジュアルダイアログ(VD)を実施することを奨励するために、強化学習の使用が可能であることが証明されています。強化学習では、状態を表し、アクションによって引き起こされる状態の遷移に基づいて報酬を割り当てることが重要です。ただし、以前のVisual Dialogue作品の状態表現はテキスト情報のみを使用し、その遷移は暗黙的です。この論文では、各ラウンドでどの視覚的コンテンツが関係しているか、視覚的対話全体で何が関係しているかを表すために、明示的関係状態(ECS)を提案します。 ECSはマルチモーダル情報からモデル化され、明示的に表されます。 ECSに基づいて、視覚対話エージェントが多様で有益な視覚情報について会話することを奨励するために、2つの直感的で解釈可能な報酬を策定します。 VisDial v1.0データセットの実験結果は、複数の自動メトリック、人間の研究、および定性分析に従って、Visual Dialogueエージェントが以前の方法と比較して、視覚的に一貫性があり、反復性が低く、視覚的に有益な対話を生成できることを示しています。
To encourage AI agents to conduct meaningful Visual Dialogue (VD), the use of Reinforcement Learning has been proven potential. In Reinforcement Learning, it is crucial to represent states and assign rewards based on the action-caused transitions of states. However, the state representation in previous Visual Dialogue works uses the textual information only and its transitions are implicit. In this paper, we propose Explicit Concerning States (ECS) to represent what visual contents are concerned at each round and what have been concerned throughout the Visual Dialogue. ECS is modeled from multimodal information and is represented explicitly. Based on ECS, we formulate two intuitive and interpretable rewards to encourage the Visual Dialogue agents to converse on diverse and informative visual information. Experimental results on the VisDial v1.0 dataset show our method enables the Visual Dialogue agents to generate more visual coherent, less repetitive and more visual informative dialogues compared with previous methods, according to multiple automatic metrics, human study and qualitative analysis.
updated: Mon Jul 12 2021 08:15:35 GMT+0000 (UTC)
published: Mon Jul 12 2021 08:15:35 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト