arXiv reaDer
ディープ セマンティック セグメンテーションに関する 3 つのレビュー: 効率指向、時間的および深さを意識した設計
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design
セマンティック イメージとビデオのセグメンテーションは、現在のコンピューター ビジョンで最も重要なタスクの 1 つです。これは、特定のシーン内のピクセルを高密度に分類することにより、環境の完全で意味のある表現を提供するためです。最近、深層学習、より正確には畳み込みニューラル ネットワークにより、セマンティック セグメンテーションがパフォーマンスと汎化機能の面で新しいレベルにまで押し上げられました。ただし、ディープ セマンティック セグメンテーション モデルの設計は複雑な作業であり、アプリケーションに依存する側面が含まれる場合があります。特に、自動運転アプリケーションを検討する場合、ロバスト性と効率のトレードオフ、固有の制限 (計算/メモリの境界とデータ不足)、および制約 (リアルタイムの推論) を考慮する必要があります。この点で、シーンのジオメトリを推論するための深度知覚や、冗長性と一貫性を調査するためのビデオからの一時的な手がかりなど、追加のデータモダリティの使用は有望な方向性ですが、文献ではそれらの可能性を最大限に探求していません.このホワイト ペーパーでは、自動運転車のビジョンのコンテキストにおけるディープ セマンティック セグメンテーションの最も関連性のある最近の進歩について、3 つの異なる視点から調査を行います。 RGB-D セマンティック セグメンテーション)、および時間認識モデルでのビデオからの時間情報の使用。私たちの主な目的は、主な方法、利点、制限、結果、およびそれぞれの観点から直面する課題について包括的な議論を提供することです。これにより、読者は単に始めるだけでなく、このエキサイティングな分野の最近の進歩に関して最新の情報を得ることができます。そして挑戦的な研究分野。
Semantic image and video segmentation stand among the most important tasks in computer vision nowadays, since they provide a complete and meaningful representation of the environment by means of a dense classification of the pixels in a given scene. Recently, Deep Learning, and more precisely Convolutional Neural Networks, have boosted semantic segmentation to a new level in terms of performance and generalization capabilities. However, designing Deep Semantic Segmentation models is a complex task, as it may involve application-dependent aspects. Particularly, when considering autonomous driving applications, the robustness-efficiency trade-off, as well as intrinsic limitations - computational/memory bounds and data-scarcity - and constraints - real-time inference - should be taken into consideration. In this respect, the use of additional data modalities, such as depth perception for reasoning on the geometry of a scene, and temporal cues from videos to explore redundancy and consistency, are promising directions yet not explored to their full potential in the literature. In this paper, we conduct a survey on the most relevant and recent advances in Deep Semantic Segmentation in the context of vision for autonomous vehicles, from three different perspectives: efficiency-oriented model development for real-time operation, RGB-Depth data integration (RGB-D semantic segmentation), and the use of temporal information from videos in temporally-aware models. Our main objective is to provide a comprehensive discussion on the main methods, advantages, limitations, results and challenges faced from each perspective, so that the reader can not only get started, but also be up to date in respect to recent advances in this exciting and challenging research field.
updated: Wed Mar 08 2023 01:29:55 GMT+0000 (UTC)
published: Wed Mar 08 2023 01:29:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト