arXiv reaDer
標準化された最大ロジット:都市-シーンセグメンテーションで予期しない道路障害物を特定するためのシンプルで効果的なアプローチ
Standardized Max Logits: A Simple yet Effective Approach for Identifying Unexpected Road Obstacles in Urban-Scene Segmentation
セマンティックセグメンテーションで道路上の予期しないオブジェクトを特定すること(たとえば、道路上の犬を特定すること)は、セーフティクリティカルなアプリケーションでは非常に重要です。既存のアプローチでは、外部データセットからの予期しないオブジェクトの画像を使用するか、追加のトレーニング(たとえば、セグメンテーションネットワークの再トレーニングや追加のネットワークのトレーニング)が必要になります。これには、取るに足らない量の労力または長い推論時間が必要です。考えられる代替案の1つは、そのようなオブジェクトを検出するために、最大ロジット(つまり、最終的なソフトマックス層の前のクラス間の最大値)などの事前トレーニング済みネットワークの予測スコアを使用することです。ただし、予測された各クラスの最大ロジットの分布は互いに大幅に異なるため、都市シーンのセグメンテーションで予期しないオブジェクトを識別するパフォーマンスが低下します。この問題に対処するために、さまざまな分布を調整し、予測された各クラス内の最大ロジットの相対的な意味を反映するために、最大ロジットを標準化するシンプルで効果的なアプローチを提案します。さらに、隣接するピクセルが同様の意味情報を共有しているという直感に基づいて、2つの異なる視点からローカル領域を検討します。以前のアプローチとは対照的に、私たちの方法は外部データセットを利用したり、追加のトレーニングを必要としないため、既存の事前トレーニング済みセグメンテーションモデルに広く適用できます。このような単純なアプローチは、公開されているFishyscapes Lost&Foundリーダーボードで新しい最先端のパフォーマンスを大きなマージンで実現します。私たちのコードは、このhttps://github.com/shjung13/Standardized-max-logitslinkで公開されています。
Identifying unexpected objects on roads in semantic segmentation (e.g., identifying dogs on roads) is crucial in safety-critical applications. Existing approaches use images of unexpected objects from external datasets or require additional training (e.g., retraining segmentation networks or training an extra network), which necessitate a non-trivial amount of labor intensity or lengthy inference time. One possible alternative is to use prediction scores of a pre-trained network such as the max logits (i.e., maximum values among classes before the final softmax layer) for detecting such objects. However, the distribution of max logits of each predicted class is significantly different from each other, which degrades the performance of identifying unexpected objects in urban-scene segmentation. To address this issue, we propose a simple yet effective approach that standardizes the max logits in order to align the different distributions and reflect the relative meanings of max logits within each predicted class. Moreover, we consider the local regions from two different perspectives based on the intuition that neighboring pixels share similar semantic information. In contrast to previous approaches, our method does not utilize any external datasets or require additional training, which makes our method widely applicable to existing pre-trained segmentation models. Such a straightforward approach achieves a new state-of-the-art performance on the publicly available Fishyscapes Lost & Found leaderboard with a large margin. Our code is publicly available at this https://github.com/shjung13/Standardized-max-logitslink.
updated: Mon Oct 11 2021 11:10:41 GMT+0000 (UTC)
published: Fri Jul 23 2021 14:25:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト