この作業では、マルチタスク学習のためのインスタンスごとの動的ネットワークモデル選択の問題を検討します。この目的のために、すべてのタスクの各インスタンスのバックボーンアーキテクチャでコンパクトでありながら正確なモデルを活用するための効率的なアプローチを提案します。提案された方法は、推定器とセレクタで構成されています。エスティメータは、バックボーンアーキテクチャに基づいており、階層構造になっています。階層構造の異なる構成の複数の異なるネットワークモデルを生成できます。セレクターは、入力インスタンスが与えられた候補モデルのプールからモデルを動的に選択します。セレクターは、タスクの入力インスタンスが与えられたときに候補モデルの確率分布を推定する、いくつかのレイヤーで構成される比較的小さなネットワークです。推定器とセレクターの両方が、追加の計算ステップなしで、サンプリングベースの学習戦略と連携した統合学習フレームワークで共同トレーニングされます。モデル選択を実行したり、複数のタスクを学習したりする既存のアプローチと比較して、いくつかの画像分類タスクに対して提案されたアプローチを示します。実験結果は、我々のアプローチが他の競合他社と比較して卓越したパフォーマンスを提供するだけでなく、複数のタスクに対してインスタンスごとのモデル選択を実行する汎用性も提供することを示しています。
In this work, we consider the problem of instance-wise dynamic network model selection for multi-task learning. To this end, we propose an efficient approach to exploit a compact but accurate model in a backbone architecture for each instance of all tasks. The proposed method consists of an estimator and a selector. The estimator is based on a backbone architecture and structured hierarchically. It can produce multiple different network models of different configurations in a hierarchical structure. The selector chooses a model dynamically from a pool of candidate models given an input instance. The selector is a relatively small-size network consisting of a few layers, which estimates a probability distribution over the candidate models when an input instance of a task is given. Both estimator and selector are jointly trained in a unified learning framework in conjunction with a sampling-based learning strategy, without additional computation steps. We demonstrate the proposed approach for several image classification tasks compared to existing approaches performing model selection or learning multiple tasks. Experimental results show that our approach gives not only outstanding performance compared to other competitors but also the versatility to perform instance-wise model selection for multiple tasks.