近年、畳み込みニューラル ネットワーク (CNN) により、単眼深度推定 (MDE) のパフォーマンスが大幅に向上しました。ただし、CNN は敵対的攻撃に対して脆弱であり、安全性が重要でセキュリティが重要なシステムに深刻な懸念をもたらします。具体的には、敵対的攻撃は、自動運転やロボット ナビゲーションなどのアプリケーションにおけるシーンの理解にとって重要であるため、MDE に壊滅的な影響を与える可能性があります。 CNN ベースの深度予測方法の脆弱性を物理的に評価するために、最近の研究では MDE に対する敵対的パッチの設計が試みられています。ただし、これらの方法は、システム全体を脅かす方法でビジョン システムを完全に騙すほど強力ではありません。実際、その影響は部分的で局所的に限定されています。ターゲット オブジェクトのサイズ、形状、および位置に関係なく、入力画像と重複する領域のみの深度予測を誤解させます。このホワイト ペーパーでは、敵対的なパッチに対する MDE の脆弱性をより包括的な方法で調査します。推定された距離を破損するか、自律システムに対してオブジェクトが消失したことを単に明示することにより、MDE を選択的に危険にさらすことができる、新しい適応敵対的パッチ (APARATE) を提案します。具体的には、APARATE は形状とスケールを認識するように最適化されており、その影響はすぐ近くに限定されるのではなく、ターゲット オブジェクトに適応します。提案されたパッチは、14 メートルを超える平均深度推定誤差を達成し、ターゲット領域の 99% が影響を受けています。私たちは、この研究が MDE の文脈における敵対的攻撃の脅威を浮き彫りにしていると信じており、この攻撃が実際に潜在的な害を及ぼす可能性があることをコミュニティに警告し、自律型ロボットのより堅牢で適応的な防御を調査する動機付けになることを願っています。
In recent years, monocular depth estimation (MDE) has witnessed a substantial performance improvement due to convolutional neural networks (CNNs). However, CNNs are vulnerable to adversarial attacks, which pose serious concerns for safety-critical and security-sensitive systems. Specifically, adversarial attacks can have catastrophic impact on MDE given its importance for scene understanding in applications like autonomous driving and robotic navigation. To physically assess the vulnerability of CNN-based depth prediction methods, recent work tries to design adversarial patches against MDE. However, these methods are not powerful enough to fully fool the vision system in a systemically threatening manner. In fact, their impact is partial and locally limited; they mislead the depth prediction of only the overlapping region with the input image regardless of the target object size, shape and location. In this paper, we investigate MDE vulnerability to adversarial patches in a more comprehensive manner. We propose a novel adaptive adversarial patch (APARATE) that is able to selectively jeopardize MDE by either corrupting the estimated distance, or simply manifesting an object as disappeared for the autonomous system. Specifically, APARATE is optimized to be shape and scale-aware, and its impact adapts to the target object instead of being limited to the immediate neighborhood. Our proposed patch achieves more than 14~meters mean depth estimation error, with 99% of the target region being affected. We believe this work highlights the threat of adversarial attacks in the context of MDE, and we hope it would alert the community to the real-life potential harm of this attack and motivate investigating more robust and adaptive defenses for autonomous robots.