深層ニューラルネットワーク(DNN)の出現により、セマンティックセグメンテーションとインスタンスレベルのセグメンテーションは近年大幅な進歩を遂げました。コンボリューションニューラルネットワーク(CNN)を備えた多くのディープアーキテクチャが提案され、従来の機械学習アプローチを大幅に上回るセグメンテーションが可能になりました。これらのアーキテクチャは、通常クロスエントロピー損失を最適化することにより、各ピクセルの直接観測可能なセマンティックカテゴリを予測します。この作業では、セマンティックセグメンテーションの制限を、ネットワークの入力が単一の深度画像である場合に、直接表示されるオブジェクトとオクルードされるオブジェクトまたはオブジェクトパーツのセマンティックラベルを予測する方向に進めます。セマンティックカテゴリを1つの背景オブジェクトグループと複数の前景オブジェクトグループにグループ化し、設定に対処するために標準のクロスエントロピー損失の修正を提案します。私たちの実験では、提案された損失を最小化することによって訓練されたCNNが、ネットワークサイズを増やすことなく、可視および遮蔽されたオブジェクトパーツのセマンティックカテゴリを予測できることを示しています(標準のセグメンテーションタスクと比較して)。結果は、新しく生成されたデータセット(SUNCGから拡張された)データセットで検証されます。
Semantic segmentation and instance level segmentation made substantial progress in recent years due to the emergence of deep neural networks (DNNs). A number of deep architectures with Convolution Neural Networks (CNNs) were proposed that surpass the traditional machine learning approaches for segmentation by a large margin. These architectures predict the directly observable semantic category of each pixel by usually optimizing a cross entropy loss. In this work we push the limit of semantic segmentation towards predicting semantic labels of directly visible as well as occluded objects or objects parts, where the network's input is a single depth image. We group the semantic categories into one background and multiple foreground object groups, and we propose a modification of the standard cross-entropy loss to cope with the settings. In our experiments we demonstrate that a CNN trained by minimizing the proposed loss is able to predict semantic categories for visible and occluded object parts without requiring to increase the network size (compared to a standard segmentation task). The results are validated on a newly generated dataset (augmented from SUNCG) dataset.