Conditional Random Fields as Recurrent Neural Networks
意味的セグメンテーションなどのピクセルレベルのラベル付け作業は、画像理解の中心的な役割を果たしている。最近のアプローチでは、画像認識のための深層学習技術の能力を利用して、ピクセルレベルのラベリングタスクに取り組もうとしている。この方法論の中心的な問題の一つは、深層学習技術では視覚的なオブジェクトを識別する能力が限られていることである。この問題を解決するために、我々は、畳み込みニューラルネットワーク(CNN)と条件付きランダムフィールド(CRF)ベースの確率的グラフィカルモデリングの長所を組み合わせた新しい形態の畳み込みニューラルネットワークを導入する。この目的のために、ガウスのペアワイズポテンシャルを持つ条件付きランダムフィールドの平均場近似推論をリカレントニューラルネットワークとして定式化する。CRF-RNNと呼ばれるこのネットワークは、CNNの一部として接続され、CNNとCRFの両方の望ましい特性を持つ深層ネットワークを得ることができる。重要なことに、我々のシステムはCRFモデリングをCNNと完全に統合しており、通常のバックプロパゲーションアルゴリズムを用いて深層ネットワーク全体をエンドツーエンドで学習することが可能であり、オフラインでの後処理手法を用いたオブジェクトの定義を回避することが可能である。提案手法をセマンティック画像のセグメンテーション問題に適用し、Pascal VOC 2012セグメンテーションベンチマークで最高の結果を得た。
Pixel-level labelling tasks, such as semantic segmentation, play a central role in image understanding. Recent approaches have attempted to harness the capabilities of deep learning techniques for image recognition to tackle pixel-level labelling tasks. One central issue in this methodology is the limited capacity of deep learning techniques to delineate visual objects. To solve this problem, we introduce a new form of convolutional neural network that combines the strengths of Convolutional Neural Networks (CNNs) and Conditional Random Fields (CRFs)-based probabilistic graphical modelling. To this end, we formulate mean-field approximate inference for the Conditional Random Fields with Gaussian pairwise potentials as Recurrent Neural Networks. This network, called CRF-RNN, is then plugged in as a part of a CNN to obtain a deep network that has desirable properties of both CNNs and CRFs. Importantly, our system fully integrates CRF modelling with CNNs, making it possible to train the whole deep network end-to-end with the usual back-propagation algorithm, avoiding offline post-processing methods for object delineation. We apply the proposed method to the problem of semantic image segmentation, obtaining top results on the challenging Pascal VOC 2012 segmentation benchmark.
updated: Wed Apr 13 2016 23:26:45 GMT+0000 (UTC)
published: Wed Feb 11 2015 10:02:50 GMT+0000 (UTC)
