以前のマルチタスク高密度予測研究では、複数の段階でのマルチモーダル蒸留や、各タスクのタスク関係コンテキストの検索などの複雑なパイプラインが開発されました。これらの方法を超えた中心的な洞察は、各タスク間の相互効果を最大化することです。最近のクエリベースのトランスフォーマーに触発されて、複数のタスク間の推論を容易にし、クロスタスクパイプラインを簡素化するために、異なるタスクからの複数のクエリを備えたマルチクエリトランスフォーマー(MQTransformer)という名前のよりシンプルなパイプラインを提案します。異なるタスク間で高密度のピクセルごとのコンテキストをモデル化する代わりに、タスク固有のプロキシを探して、各クエリがタスク関連のコンテキストをエンコードする複数のクエリを介してクロスタスク推論を実行します。 MQTransformerは、共有エンコーダー、クロスタスクアテンション、共有デコーダーの3つの主要コンポーネントで構成されています。最初に、タスク関連およびスケール認識クエリを使用して各タスクをモデル化し、次に、特徴抽出器によって出力された画像特徴とタスク関連クエリ機能の両方が共有エンコーダーに供給され、画像機能からクエリ機能がエンコードされます。 。次に、同じスケールの異なるタスクと同じタスクの異なるスケールを含む2つの観点から、複数のタスクと機能スケール間の依存関係を推論するためのクロスタスクアテンションモジュールを設計します。次に、共有デコーダーを使用して、さまざまなタスクからの推論されたクエリ機能を使用して画像機能を徐々に改良します。 2つの高密度予測データセット(NYUD-v2およびPASCAL-Context)での広範な実験結果は、提案された方法が効果的なアプローチであり、最先端の結果を達成することを示しています。
Previous multi-task dense prediction studies developed complex pipelines such as multi-modal distillations in multiple stages or searching for task relational contexts for each task. The core insight beyond these methods is to maximize the mutual effects between each task. Inspired by the recent query-based Transformers, we propose a simpler pipeline named Multi-Query Transformer (MQTransformer) that is equipped with multiple queries from different tasks to facilitate the reasoning among multiple tasks and simplify the cross task pipeline. Instead of modeling the dense per-pixel context among different tasks, we seek a task-specific proxy to perform cross-task reasoning via multiple queries where each query encodes the task-related context. The MQTransformer is composed of three key components: shared encoder, cross task attention and shared decoder. We first model each task with a task-relevant and scale-aware query, and then both the image feature output by the feature extractor and the task-relevant query feature are fed into the shared encoder, thus encoding the query feature from the image feature. Secondly, we design a cross task attention module to reason the dependencies among multiple tasks and feature scales from two perspectives including different tasks of the same scale and different scales of the same task. Then we use a shared decoder to gradually refine the image features with the reasoned query features from different tasks. Extensive experiment results on two dense prediction datasets (NYUD-v2 and PASCAL-Context) show that the proposed method is an effective approach and achieves the state-of-the-art result.