arXiv reaDer
タスク計画のためのマルチメディア生成スクリプト学習
Multimedia Generative Script Learning for Task Planning
目標指向の生成スクリプト学習は、特定の目標に到達するための後続のステップを生成することを目的としています。これは、ロボットや人間が定型的な活動を実行するのを支援するために不可欠なタスクです。このプロセスの重要な側面は、履歴状態を視覚的に把握できることです。これにより、テキストではカバーされない詳細な情報が提供され、後続のステップのガイドとなります。したがって、テキストとビジョンの両方のモダリティで履歴状態を追跡することによって後続のステップを生成する新しいタスクであるマルチメディア生成スクリプト学習を提案し、5,652 のタスクと 79,089 のマルチメディア ステップを含む最初のベンチマークを提示します。このタスクは 3 つの側面で困難です。画像内の視覚的な状態をキャプチャするマルチメディアの課題、目に見えないタスクを実行する誘導の課題、および個々のステップでさまざまな情報をカバーする多様性の課題です。私たちは、マルチメディアの課題に対処するために選択的マルチメディアエンコーダを通じて視覚状態の変化をエンコードし、誘導課題を克服するために検索拡張デコーダを使用して以前に観察されたタスクから知識を転送し、さらに多様性指向の最適化によって各ステップで異なる情報を提示することを提案します。対照的な学習目標。生成品質と帰納的品質の両方を評価するための指標を定義します。実験結果は、私たちのアプローチが強力なベースラインを大幅に上回っていることを示しています。
Goal-oriented generative script learning aims to generate subsequent steps to reach a particular goal, which is an essential task to assist robots or humans in performing stereotypical activities. An important aspect of this process is the ability to capture historical states visually, which provides detailed information that is not covered by text and will guide subsequent steps. Therefore, we propose a new task, Multimedia Generative Script Learning, to generate subsequent steps by tracking historical states in both text and vision modalities, as well as presenting the first benchmark containing 5,652 tasks and 79,089 multimedia steps. This task is challenging in three aspects: the multimedia challenge of capturing the visual states in images, the induction challenge of performing unseen tasks, and the diversity challenge of covering different information in individual steps. We propose to encode visual state changes through a selective multimedia encoder to address the multimedia challenge, transfer knowledge from previously observed tasks using a retrieval-augmented decoder to overcome the induction challenge, and further present distinct information at each step by optimizing a diversity-oriented contrastive learning objective. We define metrics to evaluate both generation and inductive quality. Experiment results demonstrate that our approach significantly outperforms strong baselines.
updated: Mon Jul 10 2023 16:51:34 GMT+0000 (UTC)
published: Thu Aug 25 2022 19:04:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト