CNNから注意メカニズムまで、誘導バイアスをニューラルネットワークにエンコードすることは、機械学習の改善の実り多い源となっています。主な目的関数に補助損失を追加することは、ネットワークがより良い表現を学習するのに役立つバイアスをエンコードする一般的な方法です。ただし、補助損失はトレーニングデータでのみ最小化されるため、通常のタスク損失と同じ一般化ギャップが発生します。さらに、損失関数に項を追加することにより、モデルは、私たちが関心を持っているものとは異なる目的を最適化します。この作業では、両方の問題に対処します。まず、トランスダクティブ学習からインスピレーションを得て、入力を受け取った後、予測を行う前に、教師なし損失についてネットワークを微調整できることに注意します。予測が誘導バイアスを満たすようにモデルを各入力に合わせてカスタマイズするため、このプロセス調整と呼びます。次に、メタ学習と同様のネストされた最適化であるメタ調整を定式化し、教師なし損失を使用してモデルを適応させた後、タスクの目的で適切に実行されるようにモデルをトレーニングします。テーラリングとメタテーラリングの利点は、理論的に説明され、さまざまな例で経験的に示されています。
From CNNs to attention mechanisms, encoding inductive biases into neural networks has been a fruitful source of improvement in machine learning. Adding auxiliary losses to the main objective function is a general way of encoding biases that can help networks learn better representations. However, since auxiliary losses are minimized only on training data, they suffer from the same generalization gap as regular task losses. Moreover, by adding a term to the loss function, the model optimizes a different objective than the one we care about. In this work we address both problems: first, we take inspiration from transductive learning and note that after receiving an input but before making a prediction, we can fine-tune our networks on any unsupervised loss. We call this process tailoring, because we customize the model to each input to ensure our prediction satisfies the inductive bias. Second, we formulate meta-tailoring, a nested optimization similar to that in meta-learning, and train our models to perform well on the task objective after adapting them using an unsupervised loss. The advantages of tailoring and meta-tailoring are discussed theoretically and demonstrated empirically on a diverse set of examples.