arXiv reaDer
マルチタスクの視覚認識のための動的な機能インタラクション フレームワーク
A Dynamic Feature Interaction Framework for Multi-task Visual Perception
マルチタスク視覚認識は、自動運転などのシーン理解に幅広い用途があります。この研究では、インスタンス セグメンテーション、セマンティック セグメンテーション、単眼 3D 検出、奥行き推定など、複数の一般的な認識タスクを解決するための効率的な統合フレームワークを考案します。これらのタスクで同じ視覚的特徴表現を共有するだけではタスクのパフォーマンスが低下し、独立したタスク固有の特徴抽出器はパラメーターの冗長性と遅延につながります。したがって、特徴ベースを学習するための 2 つの特徴マージ ブランチを設計します。これは、複数の認識タスクに役立ち、したがって複数の認識タスクによって共有される可能性があります。次に、各タスクは、対応する特徴ベースを予測タスク ヘッドの入力として受け取り、特定のタスクを実行します。特に、1 つの特徴マージ ブランチはインスタンス レベルの認識用に設計されており、もう 1 つは高密度予測用に設計されています。ブランチ間の通信を強化するために、インスタンス ブランチは、効率的な動的畳み込み重み付けを使用して、各インスタンスのピクセル単位の空間情報を高密度ブランチに渡します。さらに、タスク固有の機能を分離し、タスク間の共通プロパティを活用するための、シンプルだが効果的な動的ルーティング メカニズムが提案されています。 D2BNet と呼ばれる私たちの提案されたフレームワークは、マルチタスク認識のためのパラメーター効率の高い予測への独自のアプローチを示しています。さらに、タスクは相互に共同トレーニングすることで恩恵を受けるため、私たちのソリューションは、nuScenes 上の部分的にラベル付けされた設定で同等の結果を達成し、完全な監視下での Cityscapes データセットの 3D 検出と深度推定については以前の作業を上回りました。
Multi-task visual perception has a wide range of applications in scene understanding such as autonomous driving. In this work, we devise an efficient unified framework to solve multiple common perception tasks, including instance segmentation, semantic segmentation, monocular 3D detection, and depth estimation. Simply sharing the same visual feature representations for these tasks impairs the performance of tasks, while independent task-specific feature extractors lead to parameter redundancy and latency. Thus, we design two feature-merge branches to learn feature basis, which can be useful to, and thus shared by, multiple perception tasks. Then, each task takes the corresponding feature basis as the input of the prediction task head to fulfill a specific task. In particular, one feature merge branch is designed for instance-level recognition the other for dense predictions. To enhance inter-branch communication, the instance branch passes pixel-wise spatial information of each instance to the dense branch using efficient dynamic convolution weighting. Moreover, a simple but effective dynamic routing mechanism is proposed to isolate task-specific features and leverage common properties among tasks. Our proposed framework, termed D2BNet, demonstrates a unique approach to parameter-efficient predictions for multi-task perception. In addition, as tasks benefit from co-training with each other, our solution achieves on par results on partially labeled settings on nuScenes and outperforms previous works for 3D detection and depth estimation on the Cityscapes dataset with full supervision.
updated: Thu Jun 08 2023 09:24:46 GMT+0000 (UTC)
published: Thu Jun 08 2023 09:24:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト