深層畳み込みネットワークは、さまざまなドメインのさまざまなタスクにわたって優れたパフォーマンスを発揮するため、コンピューター ビジョンのいたるところに普及しています。ただし、モデルはタスクごとに個別にトレーニングされることが多く、タスクとドメイン間の関連性を利用して、低データ領域でより適切に一般化するよりコンパクトなモデルを学習することができません。マルチドメイン学習は、複数のドメインにわたる画像分類などの関連タスクを同時に処理することを目的としています。この問題に関する以前の研究では、事前にトレーニングされた固定ドメイン非依存ベース ネットワークと、より小規模な学習可能なドメイン固有適応モジュールとの組み合わせの使用が検討されていました。このペーパーでは、タスクごとにモデルの畳み込みフィルターの重みを乗算的に更新する変調アダプターを紹介します。これらの適応重みを因数分解してパラメータ化することで、タスクごとのパラメータの数を柔軟な方法で調整し、パラメータと精度のさまざまなトレードオフを実現できます。さまざまなドメインにわたる 10 個の画像分類タスクで構成される Visual Decathlon チャレンジと、6 つの画像分類タスクで構成される ImageNet-to-Sketch ベンチマークに対するアプローチを評価します。当社のアプローチは、既存の最先端のアプローチと同等以上の精度を備えた優れた結果をもたらします。
Deep convolutional networks are ubiquitous in computer vision, due to their excellent performance across different tasks for various domains. Models are, however, often trained in isolation for each task, failing to exploit relatedness between tasks and domains to learn more compact models that generalise better in low-data regimes. Multi-domain learning aims to handle related tasks, such as image classification across multiple domains, simultaneously. Previous work on this problem explored the use of a pre-trained and fixed domain-agnostic base network, in combination with smaller learnable domain-specific adaptation modules. In this paper, we introduce Modulation Adapters, which update the convolutional filter weights of the model in a multiplicative manner for each task. Parameterising these adaptation weights in a factored manner allows us to scale the number of per-task parameters in a flexible manner, and to strike different parameter-accuracy trade-offs. We evaluate our approach on the Visual Decathlon challenge, composed of ten image classification tasks across different domains, and on the ImageNet-to-Sketch benchmark, which consists of six image classification tasks. Our approach yields excellent results, with accuracies that are comparable to or better than those of existing state-of-the-art approaches.