arXiv reaDer
UniNet:ネットワークを理解し、敵対的な攻撃のレンズを通してマルチタスク関係を探る統一されたシーン
UniNet: A Unified Scene Understanding Network and Exploring Multi-Task Relationships through the Lens of Adversarial Attacks
シーンの理解は、現実の世界で動作することを意図した自律システムにとって非常に重要です。シングルタスクビジョンネットワークは、シーンのいくつかの側面に基づいてのみ情報を抽出します。一方、マルチタスク学習(MTL)では、これらの単一のタスクが共同で学習されるため、タスクが情報を共有し、より包括的な理解を得る機会が提供されます。この目的のために、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーション、単眼深度推定、単眼インスタンス深度予測などの重要なビジョンタスクを正確かつ効率的に推測する統合シーン理解ネットワークであるUniNetを開発します。これらのタスクは異なるセマンティック情報と幾何学的情報を調べるため、互いに補完したり競合したりする可能性があります。したがって、タスク間の関係を理解することは、補完的な情報共有を可能にするための有用な手がかりを提供することができます。ニューラルネットワークで学習したバイアスとタスクの相互作用を悪用できるという概念に基づいて、敵対的な攻撃のレンズを通してUniNetのタスクの関係を評価します。非ターゲット攻撃とターゲット攻撃を使用したCityscapesデータセットの広範な実験により、セマンティックタスクは相互に強力に相互作用し、幾何学的タスクにも同じことが当てはまることが明らかになりました。さらに、セマンティックタスクと幾何学的タスクの関係は非対称であり、高レベルの表現に移行するにつれて、それらの相互作用は弱くなることを示します。
Scene understanding is crucial for autonomous systems which intend to operate in the real world. Single task vision networks extract information only based on some aspects of the scene. In multi-task learning (MTL), on the other hand, these single tasks are jointly learned, thereby providing an opportunity for tasks to share information and obtain a more comprehensive understanding. To this end, we develop UniNet, a unified scene understanding network that accurately and efficiently infers vital vision tasks including object detection, semantic segmentation, instance segmentation, monocular depth estimation, and monocular instance depth prediction. As these tasks look at different semantic and geometric information, they can either complement or conflict with each other. Therefore, understanding inter-task relationships can provide useful cues to enable complementary information sharing. We evaluate the task relationships in UniNet through the lens of adversarial attacks based on the notion that they can exploit learned biases and task interactions in the neural network. Extensive experiments on the Cityscapes dataset, using untargeted and targeted attacks reveal that semantic tasks strongly interact amongst themselves, and the same holds for geometric tasks. Additionally, we show that the relationship between semantic and geometric tasks is asymmetric and their interaction becomes weaker as we move towards higher-level representations.
updated: Tue Aug 10 2021 11:00:56 GMT+0000 (UTC)
published: Tue Aug 10 2021 11:00:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト