Learning by Abstraction: The Neural State Machine
 AIのニューラルビューとシンボリックビューの間のギャップを埋め、視覚的推論のタスクのためにそれらの相補的な長所を統合することを目指して、ニューラルステートマシンを紹介します。画像が与えられると、まず、基礎となるセマンティクスを表し、構造化された世界モデルとして機能する確率グラフを予測します。次に、グラフに対して逐次推論を実行し、ノードを繰り返し走査して、特定の質問に答えたり、新しい推論を描画します。生の感覚データと密接に相互作用するように設計されたほとんどのニューラルアーキテクチャとは対照的に、視覚と言語の両方のモダリティをセマンティックコンセプトベースの表現に変換することにより、モデルは抽象的な潜在空間で代わりに動作し、それにより透明性とモジュール性の向上を実現します。 VQA-CPおよびGQAのモデルを評価します。これは、構成性、多段階推論、多様な推論スキルを含む最近の2つのVQAデータセットで、両方のケースで最先端の結果を達成します。新しい概念の構成、回答の分布の変化、目に見えない言語構造など、複数の次元にわたるモデルの強力な一般化能力を示す実験をさらに提供し、アプローチの質と有効性を実証します。
We introduce the Neural State Machine, seeking to bridge the gap between the neural and symbolic views of AI and integrate their complementary strengths for the task of visual reasoning. Given an image, we first predict a probabilistic graph that represents its underlying semantics and serves as a structured world model. Then, we perform sequential reasoning over the graph, iteratively traversing its nodes to answer a given question or draw a new inference. In contrast to most neural architectures that are designed to closely interact with the raw sensory data, our model operates instead in an abstract latent space, by transforming both the visual and linguistic modalities into semantic concept-based representations, thereby achieving enhanced transparency and modularity. We evaluate our model on VQA-CP and GQA, two recent VQA datasets that involve compositionality, multi-step inference and diverse reasoning skills, achieving state-of-the-art results in both cases. We provide further experiments that illustrate the model's strong generalization capacity across multiple dimensions, including novel compositions of concepts, changes in the answer distribution, and unseen linguistic structures, demonstrating the qualities and efficacy of our approach.
updated: Mon Nov 25 2019 10:02:05 GMT+0000 (UTC)
published: Tue Jul 09 2019 03:08:41 GMT+0000 (UTC)
