分布外 (OOD) の一般化を達成する能力は、人間の知性の特徴ですが、機械にはまだ手の届かないところにあります。この驚くべき能力は、概念の抽象化と類推を行う私たちの能力と、2 つの表現をバインドし、一方の表現を使用して他方を参照する間接化として知られるメカニズムに起因しています。これらのメカニズムに触発されて、現在の方法のようにデータ空間ではなく機能空間で類推と間接化を実行することにより、OOD の一般化が達成される可能性があるという仮説を立てています。これを実現するために、FINE (Functional Indirection Neural Estimator) を設計します。これは、データ入力をオンザフライで出力する関数を構成することを学習するニューラル フレームワークです。 FINE は、バックボーン ネットワークと、基本重量行列のトレーニング可能なセマンティック メモリで構成されます。新しい入出力データのペアを確認すると、FINE は基本重量を混合してバックボーンの重量を動的に構築します。混合係数は、データ ペアを使用して別の対応するセマンティック メモリを照会することによって間接的に計算されます。 FINE が、幾何学的変換を含む IQ タスクの分布外一般化を大幅に改善できることを経験的に示しています。特に、MNIST、Omniglot、および CIFAR100 データセットからの画像を使用して IQ タスクで FINE および競合するモデルをトレーニングし、1 つまたは異なるデータセットからの目に見えない画像クラスと目に見えない変換ルールを使用してタスクをテストします。 FINE は、すべてのタスクで最高のパフォーマンスを達成するだけでなく、小規模なデータ シナリオにも適応できます。
The capacity to achieve out-of-distribution (OOD) generalization is a hallmark of human intelligence and yet remains out of reach for machines. This remarkable capability has been attributed to our abilities to make conceptual abstraction and analogy, and to a mechanism known as indirection, which binds two representations and uses one representation to refer to the other. Inspired by these mechanisms, we hypothesize that OOD generalization may be achieved by performing analogy-making and indirection in the functional space instead of the data space as in current methods. To realize this, we design FINE (Functional Indirection Neural Estimator), a neural framework that learns to compose functions that map data input to output on-the-fly. FINE consists of a backbone network and a trainable semantic memory of basis weight matrices. Upon seeing a new input-output data pair, FINE dynamically constructs the backbone weights by mixing the basis weights. The mixing coefficients are indirectly computed through querying a separate corresponding semantic memory using the data pair. We demonstrate empirically that FINE can strongly improve out-of-distribution generalization on IQ tasks that involve geometric transformations. In particular, we train FINE and competing models on IQ tasks using images from the MNIST, Omniglot and CIFAR100 datasets and test on tasks with unseen image classes from one or different datasets and unseen transformation rules. FINE not only achieves the best performance on all tasks but also is able to adapt to small-scale data scenarios.