What Can Neural Networks Reason About?
 ニューラルネットワークは多くの推論タスクで成功しています。経験的に、これらのタスクには特殊なネットワーク構造が必要です。たとえば、Graph Neural Networks(GNN)はこうしたタスクの多くでうまく機能しますが、構造化されていないネットワークは失敗します。理論的には、ネットワーク構造の表現力は同等ですが、ネットワーク構造が他の構造よりも一般化される理由と時期についての理解は限られています。この論文では、ネットワークの計算構造が関連する推論プロセスのアルゴリズム構造とどれだけうまく整合しているかを研究することにより、ネットワークがどの推論タスクを学習できるかを特徴付けるフレームワークを開発します。このアルゴリズムのアライメントを正式に定義し、アライメントが改善されるにつれて減少するサンプルの複雑さの限界を導き出します。このフレームワークは、一般的な推論モデルの経験的な成功の説明を提供し、それらの制限を提案します。例として、強力なアルゴリズムパラダイムであるダイナミックプログラミング(DP)のレンズを介して、直感的な物理学、視覚的な質問応答、最短経路など、一見異なる推論タスクを統合します。 GNNはDPと連携するため、これらのタスクを解決することが期待されます。いくつかの推論タスクで、私たちの理論は経験的結果によってサポートされています。
Neural networks have succeeded in many reasoning tasks. Empirically, these tasks require specialized network structures, e.g., Graph Neural Networks (GNNs) perform well on many such tasks, but less structured networks fail. Theoretically, there is limited understanding of why and when a network structure generalizes better than others, although they have equal expressive power. In this paper, we develop a framework to characterize which reasoning tasks a network can learn well, by studying how well its computation structure aligns with the algorithmic structure of the relevant reasoning process. We formally define this algorithmic alignment and derive a sample complexity bound that decreases with better alignment. This framework offers an explanation for the empirical success of popular reasoning models, and suggests their limitations. As an example, we unify seemingly different reasoning tasks, such as intuitive physics, visual question answering, and shortest paths, via the lens of a powerful algorithmic paradigm, dynamic programming (DP). We show that GNNs align with DP and thus are expected to solve these tasks. On several reasoning tasks, our theory is supported by empirical results.
