arXiv reaDer
Real-Time Semantic Stereo Matching
 シーンの理解は、ロボット工学、セルフナビゲーション、拡張現実、およびその他の多くの分野で最も重要です。このタスクを完全に達成するために、自律エージェントは、検知されたシーンの3D構造(それがどこを見ているかを知るため)とそのコンテンツ(見えるものを知るため)を推測する必要があります。 2つのタスクに取り組むには、多くの場合、ステレオ画像からセマンティックセグメンテーションと深度を推測するように訓練されたディープニューラルネットワークが推奨される選択肢です。具体的には、セマンティックステレオマッチングは、2つのタスクを個別にトレーニングしたスタンドアロンモデルまたはエンドツーエンドの共同アーキテクチャのいずれかで対処できます。それにもかかわらず、これまでに提案されたように、前者の場合は2つのフォワードパスを必要とするか、後者の場合は単一のネットワークの複雑さのため、両方のソリューションは非効率的です。この論文では、リアルタイムのセマンティックステレオマッチングのための単一のコンパクトで軽量なアーキテクチャを提案します。私たちのフレームワークは、多段階の粗から微推定に依存しており、i)最先端のネットワークと比較して、精度がわずかに低下する組み込みデバイスでも非常に高速な推論、ii)取引精度特定のアプリケーション要件に応じて、速度を向上させます。ハイエンドGPUと組み込みJetson TX2の実験結果は、スタンドアロンタスクと比較したセマンティックステレオマッチングの優位性を確認し、ハードウェアおよびアプリケーションに対するフレームワークの汎用性を強調しています。
Scene understanding is paramount in robotics, self-navigation, augmented reality, and many other fields. To fully accomplish this task, an autonomous agent has to infer the 3D structure of the sensed scene (to know where it looks at) and its content (to know what it sees). To tackle the two tasks, deep neural networks trained to infer semantic segmentation and depth from stereo images are often the preferred choices. Specifically, Semantic Stereo Matching can be tackled by either standalone models trained for the two tasks independently or joint end-to-end architectures. Nonetheless, as proposed so far, both solutions are inefficient because requiring two forward passes in the former case or due to the complexity of a single network in the latter, although jointly tackling both tasks is usually beneficial in terms of accuracy. In this paper, we propose a single compact and lightweight architecture for real-time semantic stereo matching. Our framework relies on coarse-to-fine estimations in a multi-stage fashion, allowing: i) very fast inference even on embedded devices, with marginal drops in accuracy, compared to state-of-the-art networks, ii) trade accuracy for speed, according to the specific application requirements. Experimental results on high-end GPUs as well as on an embedded Jetson TX2 confirm the superiority of semantic stereo matching compared to standalone tasks and highlight the versatility of our framework on any hardware and for any application.
updated: Mon Feb 24 2020 20:23:56 GMT+0000 (UTC)
published: Tue Oct 01 2019 16:52:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト