FlatteNet: A Simple Versatile Framework for Dense Pixelwise Prediction
 この論文では、画像の各ピクセルに離散ラベルまたは連続ラベルを割り当てることを目的とする、密なピクセル単位の予測のための汎用的なフレームワークの考案に焦点を当てています。サブサンプリング操作が繰り返されるために機能解像度が低下することは、FCN(Fully Convolutional Network)ベースのモデルにとって重大な課題であることはよく知られています。拡張コンボリューションやエンコーダーデコーダー構造などの一般的に使用される戦略とは対照的に、サブサンプリング操作を削除したり、複雑なデコーダーモジュールを構築したりすることなく、高解像度予測を生成するFlattening Moduleを導入します。さらに、フラット化モジュールは軽量であり、既存のFCNと簡単に組み合わせることができるため、モデルビルダーは、異なるバックボーンネットワークを選択するだけで、モデルサイズ、計算コスト、精度をトレードオフできます。 MPIIでの人間の姿勢推定、PASCALコンテキストでのセマンティックセグメンテーション、およびPASCAL VOCでのオブジェクト検出の競合結果を通じて、提案されたFlattening Moduleの有効性を実証します。提案されたアプローチが、現在のドミナントデンスピクセル単位の予測フレームワークのシンプルで強力な代替手段として役立つことを願っています。
In this paper, we focus on devising a versatile framework for dense pixelwise prediction whose goal is to assign a discrete or continuous label to each pixel for an image. It is well-known that the reduced feature resolution due to repeated subsampling operations poses a serious challenge to Fully Convolutional Network (FCN) based models. In contrast to the commonly-used strategies, such as dilated convolution and encoder-decoder structure, we introduce the Flattening Module to produce high-resolution predictions without either removing any subsampling operations or building a complicated decoder module. In addition, the Flattening Module is lightweight and can be easily combined with any existing FCNs, allowing the model builder to trade off among model size, computational cost and accuracy by simply choosing different backbone networks. We empirically demonstrate the effectiveness of the proposed Flattening Module through competitive results in human pose estimation on MPII, semantic segmentation on PASCAL-Context and object detection on PASCAL VOC. We hope that the proposed approach can serve as a simple and strong alternative of current dominant dense pixelwise prediction frameworks.
updated: Fri Nov 08 2019 02:47:21 GMT+0000 (UTC)
published: Sun Sep 22 2019 08:05:04 GMT+0000 (UTC)
