arXiv reaDer
マルチモーダル取扱説明書の順序付けによるマルチモーダル手続き的知識の理解
Understanding Multimodal Procedural Knowledge by Sequencing Multimodal Instructional Manuals
順序付けられていないイベントを順序付ける機能は、実際のタスク手順を理解して推論するために不可欠なスキルです。これらの手順はテキストと画像の組み合わせで伝達されることが多いため、時間的な常識とマルチモーダル情報を完全に理解する必要があります。このような機能は、シーケンシャルタスクプランニングやマルチソース命令の要約などのアプリケーションに不可欠です。人間は順序付けられていないマルチモーダル手続き型命令について推論して順序付けることができますが、現在の機械学習モデルにそのような本質的な機能があるかどうかは未解決の問題です。この作業では、人気のあるオンライン取扱説明書からデータセットをキュレートし、包括的な人間の注釈を収集することにより、順序付けされていないマルチモーダル命令を推論して順序付けするモデルの機能をベンチマークします。モデルのパフォーマンスは人間よりも大幅に劣るだけでなく、マルチモーダル情報を効率的に利用できないように思われます。マルチモーダルイベントシーケンスでのマシンのパフォーマンスを向上させるために、テキストと画像の両方のシーケンシャルアラインメントプロパティを活用するシーケンシャルを意識した事前トレーニング手法を提案し、5%を超える大幅な改善を実現します。
The ability to sequence unordered events is an essential skill to comprehend and reason about real world task procedures, which often requires thorough understanding of temporal common sense and multimodal information, as these procedures are often communicated through a combination of texts and images. Such capability is essential for applications such as sequential task planning and multi-source instruction summarization. While humans are capable of reasoning about and sequencing unordered multimodal procedural instructions, whether current machine learning models have such essential capability is still an open question. In this work, we benchmark models' capability of reasoning over and sequencing unordered multimodal instructions by curating datasets from popular online instructional manuals and collecting comprehensive human annotations. We find models not only perform significantly worse than humans but also seem incapable of efficiently utilizing the multimodal information. To improve machines' performance on multimodal event sequencing, we propose sequentiality-aware pretraining techniques that exploit the sequential alignment properties of both texts and images, resulting in > 5% significant improvements.
updated: Thu Mar 17 2022 03:24:54 GMT+0000 (UTC)
published: Sat Oct 16 2021 06:12:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト