野生で動作するロボット視覚システムは、未知のものを含むさまざまな意味論的概念に直面しながら、さまざまな環境条件下で、制約のないシナリオで動作する必要があります。この目的のために、最近の研究は、i)見えない概念を検出し、ii)新しいセマンティッククラスの画像が到着するにつれて、時間の経過とともに知識を拡張する機能を備えた視覚オブジェクト認識方法を強化しようとしました。オープンワールド認識(OWR)と呼ばれるこの設定は、初期トレーニングセットに存在するセマンティック制限を破ることができるシステムを作成することを目的としています。ただし、このトレーニングセットは、実際の世界の高い変動性を必ずしも反映していない特定の取得条件へのバイアスのために、システム自体のセマンティック制限だけでなく、環境制限も課します。トレーニングとテスト配布の間のこの不一致は、ドメインシフトと呼ばれます。この作業では、OWRアルゴリズムがドメインシフトの下で有効かどうかを調査し、ドメインシフトがある場合とない場合のOWRアルゴリズムのパフォーマンスを公正に評価するための最初のベンチマーク設定を示します。次に、このベンチマークを使用してさまざまなシナリオで分析を実行し、トレーニングとテストの分布が異なる場合に、既存のOWRアルゴリズムが実際に深刻なパフォーマンスの低下をどのように受けるかを示します。私たちの分析によると、この劣化はOWRをドメイン一般化手法と組み合わせることでわずかに軽減されるだけであり、既存のアルゴリズムをプラグアンドプレイするだけでは、見えないドメインの新しい未知のカテゴリを認識するのに十分ではないことがわかります。私たちの結果は、これらの挑戦的でありながら非常に現実的な条件下で確実に機能できるロボット視覚システムを構築するために調査する必要がある未解決の問題と将来の研究の方向性を明確に示しています。 https://github.com/DarioFontanel/OWR-VisualDomainsで入手可能なコード
Robotic visual systems operating in the wild must act in unconstrained scenarios, under different environmental conditions while facing a variety of semantic concepts, including unknown ones. To this end, recent works tried to empower visual object recognition methods with the capability to i) detect unseen concepts and ii) extended their knowledge over time, as images of new semantic classes arrive. This setting, called Open World Recognition (OWR), has the goal to produce systems capable of breaking the semantic limits present in the initial training set. However, this training set imposes to the system not only its own semantic limits, but also environmental ones, due to its bias toward certain acquisition conditions that do not necessarily reflect the high variability of the real-world. This discrepancy between training and test distribution is called domain-shift. This work investigates whether OWR algorithms are effective under domain-shift, presenting the first benchmark setup for assessing fairly the performances of OWR algorithms, with and without domain-shift. We then use this benchmark to conduct analyses in various scenarios, showing how existing OWR algorithms indeed suffer a severe performance degradation when train and test distributions differ. Our analysis shows that this degradation is only slightly mitigated by coupling OWR with domain generalization techniques, indicating that the mere plug-and-play of existing algorithms is not enough to recognize new and unknown categories in unseen domains. Our results clearly point toward open issues and future research directions, that need to be investigated for building robot visual systems able to function reliably under these challenging yet very real conditions. Code available at https://github.com/DarioFontanel/OWR-VisualDomains