Plan-Recognition-Driven Attention Modeling for Visual Recognition

Yantian Zha; Yikang Li; Tianshu Yu; Subbarao Kambhampati; Baoxin Li

視覚認識のための計画認識駆動型注意モデリング

活動または外部エージェントの人間の視覚認識には、高レベルの計画認識と低レベルの知覚の間の相互作用が含まれます。それを考えると、尋ねるべき自然な質問は、高レベルの計画認識によって低レベルの認識を改善できるかということです。認識された計画を活用して、より優れたトップダウンの注意マップgazzaniga2009、baluch2011を生成し、知覚パフォーマンスを向上させるという問題を定式化します。これらのトップダウンアテンションマップを、特に計画認識主導のアテンションマップと呼びます。この問題に対処するために、Pixel DynamicsNetworkを紹介します。ピクセルダイナミクスネットワークは、ピクセルの観測とピクセルレベルのアクション機能が与えられた場合に、各ピクセル位置でのオブジェクトポイントの次の状態を予測する観測モデルとして機能します。これは、ピクセルレベルのダイナミクスモデルを内部で学習するようなものです。 Pixel Dynamics Networkは、特別に設計されたアーキテクチャを備えた一種の畳み込みニューラルネットワーク（ConvNet）です。したがって、Pixel Dynamics Networkは、ピクセルレベルのダイナミクスモデルを学習しながら、ConvNetの並列計算を利用できます。さらに、観測モデルとしてのPixel Dynamics Networkと、部分観測マルコフ決定過程（POMDP）フレームワークにおける信念の更新との同等性を証明します。イベント認識タスクでPixelDynamicsNetworkを評価します。 Pixel Dynamics Networkをサブルーチンとして使用するイベント認識システムER-PRNを構築し、計画認識主導の注意によって強化された観測に基づいてイベントを認識します。

Human visual recognition of activities or external agents involves an interplay between high-level plan recognition and low-level perception. Given that, a natural question to ask is: can low-level perception be improved by high-level plan recognition? We formulate the problem of leveraging recognized plans to generate better top-down attention maps gazzaniga2009,baluch2011 to improve the perception performance. We call these top-down attention maps specifically as plan-recognition-driven attention maps. To address this problem, we introduce the Pixel Dynamics Network. Pixel Dynamics Network serves as an observation model, which predicts next states of object points at each pixel location given observation of pixels and pixel-level action feature. This is like internally learning a pixel-level dynamics model. Pixel Dynamics Network is a kind of Convolutional Neural Network (ConvNet), with specially-designed architecture. Therefore, Pixel Dynamics Network could take the advantage of parallel computation of ConvNets, while learning the pixel-level dynamics model. We further prove the equivalence between Pixel Dynamics Network as an observation model, and the belief update in partially observable Markov decision process (POMDP) framework. We evaluate our Pixel Dynamics Network in event recognition tasks. We build an event recognition system, ER-PRN, which takes Pixel Dynamics Network as a subroutine, to recognize events based on observations augmented by plan-recognition-driven attention.

updated: Thu Oct 14 2021 05:03:23 GMT+0000 (UTC)

published: Sun Dec 02 2018 02:07:06 GMT+0000 (UTC)

arXiv

参考文献 (このサイトで利用可能なもの) / References (only if available on this site)

被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)

Amazon.co.jpアソシエイト