リレーショナル推論はインテリジェントな動作の中心的なコンポーネントですが、ニューラルネットワークが学習するのが難しいことが証明されています。関係ネットワーク(RN)モジュールは、このような問題を解決するためにDeepMindによって最近提案され、多くのデータセットに関する最新の結果を実証しました。ただし、RNモジュールは、エンティティに対応していないものも含めて、視野内のすべてのパッチ間の関係係数を計算するため、入力のサイズで2次的にスケーリングします。このペーパーでは、入力フィールド上のアテンションメカニズムによって取得されたエンティティのストリームから関係を決定できるようにするアーキテクチャについて説明します。モデルはエンドツーエンドでトレーニングされ、同等のパフォーマンスと優れた解釈可能性を実証しながら、元のRNモジュールのモデルパラメーターの一部のみを必要とします。
Relational reasoning is a central component of intelligent behavior, but has proven difficult for neural networks to learn. The Relation Network (RN) module was recently proposed by DeepMind to solve such problems, and demonstrated state-of-the-art results on a number of datasets. However, the RN module scales quadratically in the size of the input, since it calculates relationship factors between every patch in the visual field, including those that do not correspond to entities. In this paper, we describe an architecture that enables relationships to be determined from a stream of entities obtained by an attention mechanism over the input field. The model is trained end-to-end, and demonstrates equivalent performance with greater interpretability while requiring only a fraction of the model parameters of the original RN module.