このペーパーでは、手順の常識的な知識を理解する問題に対処します。これは、重要なエンティティを識別し、状態の変化を追跡し、時間的および因果関係を理解する必要があるため、困難なタスクです。これまでの研究の大部分とは異なり、この研究では、強い帰納的バイアスに依存せず、補完的なセマンティックシグナルを提供するためにマルチモダリティを活用する方法の問題を探ります。この目的のために、外部のリレーショナルメモリユニットで強化された新しいエンティティ認識ニューラル理解モデルを導入します。このモデルは、テキストの指示を読みながら、エンティティの状態を相互に関連して動的に更新することを学習します。最近提案されたRecipeQAデータセットの視覚的推論タスクに関する実験的分析により、以前に報告されたモデルの精度が大幅に向上することが明らかになりました。さらに、エンティティ状態のレベルで監視を使用しない場合でも、モデルはエンティティの効果的な動的表現を学習することがわかります。
This paper addresses the problem of comprehending procedural commonsense knowledge. This is a challenging task as it requires identifying key entities, keeping track of their state changes, and understanding temporal and causal relations. Contrary to most of the previous work, in this study, we do not rely on strong inductive bias and explore the question of how multimodality can be exploited to provide a complementary semantic signal. Towards this end, we introduce a new entity-aware neural comprehension model augmented with external relational memory units. Our model learns to dynamically update entity states in relation to each other while reading the text instructions. Our experimental analysis on the visual reasoning tasks in the recently proposed RecipeQA dataset reveals that our approach improves the accuracy of the previously reported models by a large margin. Moreover, we find that our model learns effective dynamic representations of entities even though we do not use any supervision at the level of entity states.