arXiv reaDer
全体的なシーンの理解に向けて:セマンティックセグメンテーションおよびそれ以降
Towards holistic scene understanding: Semantic segmentation and beyond
この論文は、視覚的なシーンの理解に取り組み、セグメンテーションのパフォーマンスと一般化、ネットワークのトレーニング効率、および全体的な理解を強化します。まず、ストリートシーンのコンテキストでセマンティックセグメンテーションを調査し、さまざまなデータセットの組み合わせでセマンティックセグメンテーションネットワークをトレーニングします。第2章では、単一の畳み込みバックボーン上で階層分類器のフレームワークを設計し、ピクセルラベル付きデータセットの組み合わせでエンドツーエンドでトレーニングし、一般化可能性と認識可能なセマンティック概念の数を改善します。第3章では、弱い監視によるセマンティックセグメンテーションの強化に焦点を当て、ピクセルごとの監視だけでなく、バウンディングボックスレベルおよび画像レベルの監視によるトレーニングのための弱い監視アルゴリズムを提案します。複数のデータセットでの同時トレーニングから生じるメモリと計算負荷の課題については、第4章で説明します。パフォーマンスを犠牲にすることなくネットワークのエコロジカルフットプリントを削減するために、監視が弱いデータセットから有益で多様なサンプルを選択するための2つの方法を提案します。メモリと計算効率の要件に動機付けられて、第5章では、異種データセットの同時トレーニングを再考し、ユニバーサルセマンティックセグメンテーションフレームワークを提案します。このフレームワークは、さまざまなシーン理解データセットを活用することにより、パフォーマンスメトリックとセマンティック知識の一貫した向上を実現します。第6章では、部分を意識したパノラマセグメンテーションの新しいタスクを紹介します。これにより、全体的なシーンの理解に向けて推論が拡張されます。このタスクは、シーンおよびパーツレベルのセマンティクスをインスタンスレベルのオブジェクト検出と組み合わせます。結論として、私たちの貢献は、畳み込みネットワークアーキテクチャ、弱教師あり学習、部分およびパノラマセグメンテーションに及び、全体的で豊かで持続可能な視覚シーンの理解への道を開きます。
This dissertation addresses visual scene understanding and enhances segmentation performance and generalization, training efficiency of networks, and holistic understanding. First, we investigate semantic segmentation in the context of street scenes and train semantic segmentation networks on combinations of various datasets. In Chapter 2 we design a framework of hierarchical classifiers over a single convolutional backbone, and train it end-to-end on a combination of pixel-labeled datasets, improving generalizability and the number of recognizable semantic concepts. Chapter 3 focuses on enriching semantic segmentation with weak supervision and proposes a weakly-supervised algorithm for training with bounding box-level and image-level supervision instead of only with per-pixel supervision. The memory and computational load challenges that arise from simultaneous training on multiple datasets are addressed in Chapter 4. We propose two methodologies for selecting informative and diverse samples from datasets with weak supervision to reduce our networks' ecological footprint without sacrificing performance. Motivated by memory and computation efficiency requirements, in Chapter 5, we rethink simultaneous training on heterogeneous datasets and propose a universal semantic segmentation framework. This framework achieves consistent increases in performance metrics and semantic knowledgeability by exploiting various scene understanding datasets. Chapter 6 introduces the novel task of part-aware panoptic segmentation, which extends our reasoning towards holistic scene understanding. This task combines scene and parts-level semantics with instance-level object detection. In conclusion, our contributions span over convolutional network architectures, weakly-supervised learning, part and panoptic segmentation, paving the way towards a holistic, rich, and sustainable visual scene understanding.
updated: Sun Jan 16 2022 19:18:11 GMT+0000 (UTC)
published: Sun Jan 16 2022 19:18:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト