畳み込みニューラル ネットワーク (CNN) とトランスフォーマーには独自の利点があり、どちらもマルチタスク学習 (MTL) の高密度予測に広く使用されています。 MTL に関する現在の研究のほとんどは、CNN または Transformer のみに依存しています。この作業では、高密度予測のマルチタスク学習のために、変形可能な CNN とクエリベースの Transformer の両方のメリットを組み合わせることにより、新しい MTL モデルを提示します。 DeMT と名付けられた私たちの方法は、単純で効果的なエンコーダー デコーダー アーキテクチャ (つまり、変形可能なミキサー エンコーダーとタスク認識トランス デコーダー) に基づいています。まず、変形可能なミキサー エンコーダーには 2 種類のオペレーターが含まれています。異なるチャンネル間の通信 (つまり、効率的なチャンネル位置ミキシング) を可能にするために利用されるチャンネル認識ミキシング オペレーターと、より有益な情報を効率的にサンプリングするために変形可能な畳み込みが適用された空間認識変形可能オペレーターです。空間位置 (つまり、変形したフィーチャ)。第 2 に、タスク認識トランスフォーマー デコーダーは、タスク インタラクション ブロックとタスク クエリ ブロックで構成されます。前者は、自己注意を介してタスクの相互作用機能をキャプチャするために適用されます。後者は、変形された機能とタスクと相互作用する機能を活用して、対応するタスク予測のためのクエリベースの Transformer を介して、対応するタスク固有の機能を生成します。 NYUD-v2 と PASCAL-Context の 2 つの高密度画像予測データセットに関する広範な実験では、モデルが使用する GFLOP が少なく、さまざまなメトリックで現在の Transformer ベースおよび CNN ベースの競合モデルよりも大幅に優れていることが示されています。コードは https://github.com/yangyangxu0/DeMT で入手できます。
Convolution neural networks (CNNs) and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer for multi-task learning of dense prediction. Our method, named DeMT, is based on a simple and effective encoder-decoder architecture (i.e., deformable mixer encoder and task-aware transformer decoder). First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels (i.e., efficient channel location mixing), and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations (i.e., deformed features). Second, the task-aware transformer decoder consists of the task interaction block and task query block. The former is applied to capture task interaction features via self-attention. The latter leverages the deformed features and task-interacted features to generate the corresponding task-specific feature through a query-based Transformer for corresponding task predictions. Extensive experiments on two dense image prediction datasets, NYUD-v2 and PASCAL-Context, demonstrate that our model uses fewer GFLOPs and significantly outperforms current Transformer- and CNN-based competitive models on a variety of metrics. The code are available at https://github.com/yangyangxu0/DeMT .