arXiv reaDer
事前知識と状態遷移を介した説明可能なビデオアクション推論
Explainable Video Action Reasoning via Prior Knowledge and State Transitions
  ビデオでの人間の行動の分析と理解は、重要でやりがいのある仕事です。過去数年間でかなりの進歩があったが、既存の方法の説明可能性はまだ限られている。この作業では、ビデオ状態の変化の意味レベルの観察を説明するために事前知識を使用する新しいアクション推論フレームワークを提案します。私たちの方法は、古典的な推論と現代の深層学習アプローチの両方を活用しています。具体的には、事前知識は、ターゲットビデオドメイン内のオブジェクト、属性、および関係のセットを含むターゲットビデオドメインの情報として定義されるだけでなく、時間属性および関係の変更(つまり、状態遷移)によって定義される関連アクションも含みます。ビデオシーケンスが与えられると、まず各フレームにシーングラフを生成して、関係するオブジェクト、属性、および関係を表します。次に、これらのシーングラフは、フレーム間でオブジェクトを追跡することでリンクされ、セマンティックレベルのビデオ状態を表す時空間グラフ(ビデオグラフとも呼ばれます)を形成します。最後に、ビデオグラフの各状態遷移を順番に調べることで、人間の論理的な考え方と同様に、事前の知識でこれらのアクションがどのように実行されるかを検出して説明できます。以前の作品と比較して、私たちの方法のアクション推論結果は、ビデオコンテンツの変化の論理的規則と意味レベルの観察の両方によって説明できます。さらに、提案された方法を使用して、誰(特定のオブジェクト)、いつ(時間)、どこ(オブジェクトの場所)、どのように(どのような変更)などの詳細情報を持つ複数の同時アクションを検出できます。再注釈されたデータセットCAD-120の実験は、この方法の有効性を示しています。
Human action analysis and understanding in videos is an important and challenging task. Although substantial progress has been made in past years, the explainability of existing methods is still limited. In this work, we propose a novel action reasoning framework that uses prior knowledge to explain semantic-level observations of video state changes. Our method takes advantage of both classical reasoning and modern deep learning approaches. Specifically, prior knowledge is defined as the information of a target video domain, including a set of objects, attributes and relationships in the target video domain, as well as relevant actions defined by the temporal attribute and relationship changes (i.e. state transitions). Given a video sequence, we first generate a scene graph on each frame to represent concerned objects, attributes and relationships. Then those scene graphs are linked by tracking objects across frames to form a spatio-temporal graph (also called video graph), which represents semantic-level video states. Finally, by sequentially examining each state transition in the video graph, our method can detect and explain how those actions are executed with prior knowledge, just like the logical manner of thinking by humans. Compared to previous works, the action reasoning results of our method can be explained by both logical rules and semantic-level observations of video content changes. Besides, the proposed method can be used to detect multiple concurrent actions with detailed information, such as who (particular objects), when (time), where (object locations) and how (what kind of changes). Experiments on a re-annotated dataset CAD-120 show the effectiveness of our method.
updated: Wed Aug 28 2019 13:04:28 GMT+0000 (UTC)
published: Wed Aug 28 2019 13:04:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト