ディープコンボリューショナルニューラルネットワーク(DCNN)は最近、画像分類やオブジェクト検出などの高レベルの視覚タスクにおける最先端のパフォーマンスを示しています。この作業では、DCNNのメソッドとピクセルレベルの分類(「セマンティックイメージセグメンテーション」とも呼ばれます)のタスクに対処するための確率的グラフィカルモデルを統合します。 DCNNの最終層での応答は、正確なオブジェクトセグメンテーションのために十分にローカライズされていないことを示します。これは、DCNNを高レベルのタスクに適したものにする非常に不変性の特性によるものです。最終的なDCNN層での応答と完全に接続された条件付きランダムフィールド(CRF)を組み合わせることにより、ディープネットワークのこの貧弱なローカリゼーションプロパティを克服します。定性的には、「DeepLab」システムは、以前の方法を超えた精度でセグメント境界をローカライズできます。定量的に、我々の方法は、PASCAL VOC-2012セマンティックイメージセグメンテーションタスクで新しい最先端を設定し、テストセットで71.6%のIOU精度に達します。これらの結果を効率的に取得する方法を示します。注意深いネットワークの再目的化とウェーブレットコミュニティの「ホール」アルゴリズムの新規アプリケーションにより、最新のGPUで1秒あたり8フレームのニューラルネット応答の高密度計算が可能になります。
Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and object detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called "semantic image segmentation"). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our "DeepLab" system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantitatively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the 'hole' algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.