以前のマルチタスクの密な予測研究では、複数のステージでのマルチモーダル蒸留や、各タスクのタスク リレーショナル コンテキストの検索など、複雑なパイプラインが開発されました。これらの方法を超えた核となる洞察は、各タスクの相互効果を最大化することです。最近のクエリベースのトランスフォーマーに着想を得て、マルチクエリ トランスフォーマー (MQTransformer) という名前の単純なパイプラインを提案します。このパイプラインには、異なるタスクからの複数のクエリが装備されており、複数のタスク間の推論が容易になり、タスク間の相互作用パイプラインが簡素化されます。さまざまなタスク間で高密度のピクセルごとのコンテキストをモデル化する代わりに、タスク固有のプロキシを探して、各クエリがタスク関連のコンテキストをエンコードする複数のクエリを介してクロスタスク推論を実行します。 MQTransformer は、共有エンコーダー、クロスタスク クエリ アテンション モジュール、および共有デコーダーの 3 つの主要コンポーネントで構成されています。まず、タスクに関連するクエリを使用して各タスクをモデル化します。次に、特徴抽出器によるタスク固有の特徴出力とタスク関連のクエリの両方が共有エンコーダーに供給され、タスク固有の特徴からタスク関連のクエリがエンコードされます。次に、クロスタスク クエリ アテンション モジュールを設計して、複数のタスク関連クエリ間の依存関係を推論します。これにより、モジュールはクエリレベルの対話のみに集中できます。最後に、共有デコーダーを使用して、さまざまなタスクからの推論されたクエリ機能を使用して画像機能を徐々に改良します。 2 つの密な予測データセット (NYUD-v2 および PASCAL-Context) に関する広範な実験結果は、提案された方法が効果的なアプローチであり、最先端の結果を達成することを示しています。コードとモデルは、https://github.com/yangyangxu0/MQTransformer で入手できます。
Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects of each task. Inspired by the recent query-based Transformers, we propose a simple pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross-task interaction pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross-task query attention module and shared decoder. We first model each task with a task-relevant query. Then both the task-specific feature output by the feature extractor and the task-relevant query are fed into the shared encoder, thus encoding the task-relevant query from the task-specific feature. Secondly, we design a cross-task query attention module to reason the dependencies among multiple task-relevant queries; this enables the module to only focus on the query-level interaction. Finally, we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves state-of-the-art results. Code and models are available at https://github.com/yangyangxu0/MQTransformer.