arXiv reaDer
時間連続画像からの文脈的因果関係の学習
Learning Contextual Causality from Time-consecutive Images
因果関係の知識は、多くの人工知能システムにとって非常に重要です。従来のテキストベースの因果関係知識獲得方法は、通常、面倒で費用のかかる人間の注釈を必要とします。その結果、それらの規模はしばしば制限されます。さらに、注釈中にコンテキストが提供されないため、結果として得られる因果関係の知識レコード(ConceptNetなど)は通常、コンテキストを考慮しません。因果関係の知識を取得するためのよりスケーラブルな方法を探求するために、この論文では、テキスト領域から飛び出し、視覚信号から文脈的因果関係を学習する可能性を調査します。純粋なテキストベースのアプローチと比較して、視覚信号から因果関係を学習することには、次の利点があります。(1)因果関係の知識は、テキストではめったに表現されないがビデオが豊富な常識知識に属します。 (2)ビデオ内のほとんどのイベントは自然に時間順に並べられており、因果関係の知識をマイニングするための豊富なリソースを提供します。 (3)ビデオ内のすべてのオブジェクトは、因果関係のコンテキストプロパティを研究するためのコンテキストとして使用できます。詳細には、最初に高品質のデータセットVis-Causalを提案し、次に実験を行って、優れた言語と視覚的表現モデル、および十分なトレーニング信号を使用して、ビデオから意味のある因果関係の知識を自動的に発見できることを示します。さらなる分析はまた、因果関係の文脈的特性が実際に存在することを示しており、実際のアプリケーションで因果関係の知識を使用したい場合はそれを考慮に入れることが重要であり、視覚信号はそのような文脈的因果関係を学習するための優れたリソースとして役立つ可能性があります。
Causality knowledge is crucial for many artificial intelligence systems. Conventional textual-based causality knowledge acquisition methods typically require laborious and expensive human annotations. As a result, their scale is often limited. Moreover, as no context is provided during the annotation, the resulting causality knowledge records (e.g., ConceptNet) typically do not take the context into consideration. To explore a more scalable way of acquiring causality knowledge, in this paper, we jump out of the textual domain and investigate the possibility of learning contextual causality from the visual signal. Compared with pure text-based approaches, learning causality from the visual signal has the following advantages: (1) Causality knowledge belongs to the commonsense knowledge, which is rarely expressed in the text but rich in videos; (2) Most events in the video are naturally time-ordered, which provides a rich resource for us to mine causality knowledge from; (3) All the objects in the video can be used as context to study the contextual property of causal relations. In detail, we first propose a high-quality dataset Vis-Causal and then conduct experiments to demonstrate that with good language and visual representation models as well as enough training signals, it is possible to automatically discover meaningful causal knowledge from the videos. Further analysis also shows that the contextual property of causal relations indeed exists, taking which into consideration might be crucial if we want to use the causality knowledge in real applications, and the visual signal could serve as a good resource for learning such contextual causality.
updated: Sun Dec 13 2020 20:24:48 GMT+0000 (UTC)
published: Sun Dec 13 2020 20:24:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト