arXiv reaDer
DeepLab: 深層畳み込みネット、アトラス畳み込み、完全連結CRFによるセマンティック画像セグメンテーション
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
本研究では、ディープラーニングを用いたセマンティック画像のセグメンテーションという課題に取り組み、実用的なメリットがあることが実験的に示された3つの主要な貢献をしている。第一に、アップサンプリングされたフィルターを用いた畳み込み、すなわち「アトラス畳み込み」が、高密度な予測タスクにおける強力なツールであることを強調する。アトラス畳み込みは、深層畳み込みニューラル・ネットワーク内で特徴応答が計算される際の解像度を明示的に制御することができる。また、パラメータ数や計算量を増やすことなく、フィルターの視野を効果的に広げ、より大きな文脈を取り込むことができる。第二に、複数のスケールでオブジェクトをロバストにセグメント化するために、アトラス空間ピラミッドプーリング(ASPP)を提案します。ASPPは、入力された畳み込み特徴層を、複数のサンプリングレートと有効な視野のフィルターでプローブすることで、複数のスケールでオブジェクトと画像のコンテキストを捉えることができる。第三に、DCNNと確率的グラフィカルモデルを組み合わせることで、物体の境界の定位を改善する。DCNNで一般的に用いられているマックスプーリングとダウンサンプリングの組み合わせは、不変性を実現するが、定位精度に影響を及ぼす。この問題を解決するために、DCNNの最終層での応答を、完全に接続された条件付き確率場(CRF)と組み合わせることで、定性・定量的に定位性能が向上することを示した。提案した「DeepLab」システムは、PASCAL VOC-2012セマンティック画像分割タスクにおいて、テストセットで79.7%のmIOUを達成し、新たな最先端を確立した。また、他の3つのデータセット(PASCAL-Context、PASCAL-Person-Part、Cityscapes)でも結果が向上した。我々のコードはすべてオンラインで公開されている。
In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or 'atrous convolution', as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second, we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third, we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed "DeepLab" system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7% mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online.
updated: Fri May 12 2017 03:25:47 GMT+0000 (UTC)
published: Thu Jun 02 2016 21:52:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト