Deep High-Resolution Representation Learning for Visual Recognition
 高解像度の表現は、人間の姿勢推定、セマンティックセグメンテーション、オブジェクト検出など、位置に敏感な視覚の問題に不可欠です。既存の最先端のフレームワークは、まず、高解像度から低解像度の畳み込みを直列に接続することで形成されるサブネットワーク(ResNet、VGGNetなど)を介して入力画像を低解像度表現としてエンコードし、次に高解像度を復元しますエンコードされた低解像度表現からの解像度表現。代わりに、高解像度ネットワーク(HRNet)という名前の提案されたネットワークは、プロセス全体を通して高解像度の表現を維持します。 2つの重要な特性があります。(i)高解像度から低解像度の畳み込みストリームを並列に接続します。 (ii)解像度を超えて情報を繰り返し交換します。利点は、結果の表現が意味的に豊かで、空間的に正確であることです。人間の姿勢推定、セマンティックセグメンテーション、オブジェクト検出を含む幅広いアプリケーションで提案されたHRNetの優位性を示し、HRNetがコンピュータービジョン問題の強力なバックボーンであることを示唆します。すべてのコードは〜で入手できます。
High-resolution representations are essential for position-sensitive vision problems, such as human pose estimation, semantic segmentation, and object detection. Existing state-of-the-art frameworks first encode the input image as a low-resolution representation through a subnetwork that is formed by connecting high-to-low resolution convolutions in series (e.g., ResNet, VGGNet), and then recover the high-resolution representation from the encoded low-resolution representation. Instead, our proposed network, named as High-Resolution Network (HRNet), maintains high-resolution representations through the whole process. There are two key characteristics: (i) Connect the high-to-low resolution convolution streams in parallel; (ii) Repeatedly exchange the information across resolutions. The benefit is that the resulting representation is semantically richer and spatially more precise. We show the superiority of the proposed HRNet in a wide range of applications, including human pose estimation, semantic segmentation, and object detection, suggesting that the HRNet is a stronger backbone for computer vision problems. All the codes are available at~
updated: Fri Mar 13 2020 13:38:30 GMT+0000 (UTC)
published: Tue Aug 20 2019 10:47:46 GMT+0000 (UTC)
