この作品は、車載カメラで撮影した画像のみに頼り、屋外ロボットナビゲーションのシーン理解に取り組んでいます。従来の視覚シーンの理解は、特定の記述カテゴリに基づいて環境を解釈します。ただし、そのような表現は意思決定のために直接解釈することはできず、ロボットの動作を特定のドメインに制限します。したがって、ロボットが画像内をどのようにナビゲートできるかという観点から、自己中心的な画像を直接セグメント化し、学習問題を自律ナビゲーションタスクに合わせて調整することを提案します。画像セグメンテーションネットワークを中心に構築し、都市とオフロードの両方のシーンに広く適用できる3つの運転性レベルで構成される一般的なアフォーダンスを提示します。これらのレベルをソフト序数ラベルでエンコードすることにより、学習中にクラス間距離を組み込み、標準の「ハード」ワンホットラベルと比較してセグメンテーションを改善します。さらに、セーフティクリティカルな領域をより重要視するナビゲーション指向のピクセル単位の損失重み付け方法を提案します。日当たりの良い街路から雪に覆われた森の小道に至るまでの大規模な公共画像セグメンテーションデータセットに対するアプローチを評価します。クロスデータセットの一般化実験では、アフォーダンス学習スキームをデータセットの多様な組み合わせに適用でき、汎用の単一データセットセグメンテーションと比較して、目に見えない環境での運転性の推定を改善できることを示します。
This work tackles scene understanding for outdoor robotic navigation, solely relying on images captured by an on-board camera. Conventional visual scene understanding interprets the environment based on specific descriptive categories. However, such a representation is not directly interpretable for decision-making and constrains robot operation to a specific domain. Thus, we propose to segment egocentric images directly in terms of how a robot can navigate in them, and tailor the learning problem to an autonomous navigation task. Building around an image segmentation network, we present a generic affordance consisting of 3 driveability levels which can broadly apply to both urban and off-road scenes. By encoding these levels with soft ordinal labels, we incorporate inter-class distances during learning which improves segmentation compared to standard "hard" one-hot labelling. In addition, we propose a navigation-oriented pixel-wise loss weighting method which assigns higher importance to safety-critical areas. We evaluate our approach on large-scale public image segmentation datasets ranging from sunny city streets to snowy forest trails. In a cross-dataset generalization experiment, we show that our affordance learning scheme can be applied across a diverse mix of datasets and improves driveability estimation in unseen environments compared to general-purpose, single-dataset segmentation.