arXiv reaDer
スケーラブルな機能とテクスチャ圧縮による分析に適した顔の表現に向けて
Towards Analysis-friendly Face Representation with Scalable Feature and Texture Compression
 無数のビジュアルデータ中心のアプリケーションにおける究極のユーティリティの最適化に向けて、ビジュアル情報をコンパクトに表すという基本的な役割を果たします。テクスチャと視覚機能を効率的に圧縮するために多数のアプローチが提案されており、それぞれ人間の視覚とマシンインテリジェンスに役立ちますが、それらの間の相互作用の研究に費やされる作業ははるかに少なくなっています。ここでは、機能とテクスチャ圧縮の統合を調査し、普遍的で協調的な視覚情報表現が階層的に実現できることを示します。特に、スケーラブルなコーディングフレームワークで機能とテクスチャの圧縮を研究します。ベースレイヤーは、深層学習機能と拡張レイヤーのターゲットとして機能し、テクスチャを完全に再構築します。ディープニューラルネットワークの強力な生成機能に基づいて、ベースフィーチャレイヤーとエンハンスメントレイヤーの間のギャップは、フィーチャレベルのテクスチャ再構成でさらに埋められ、フィーチャからテクスチャ表現をさらに構築することを目的としています。したがって、元のテクスチャと再構築されたテクスチャの間の残差は、エンハンスメントレイヤでさらに伝達できます。提案されたフレームワークの効率を改善するために、ベースレイヤーニューラルネットワークはマルチタスクの方法でトレーニングされ、学習された機能は高品質の再構成と高精度分析の両方を楽しむことができます。さらに、顔画像圧縮のフレームワークと最適化戦略を示し、レート忠実度とレート精度の両方の観点から、有望なコーディングパフォーマンスが達成されました。
It plays a fundamental role to compactly represent the visual information towards the optimization of the ultimate utility in myriad visual data centered applications. With numerous approaches proposed to efficiently compress the texture and visual features serving human visual perception and machine intelligence respectively, much less work has been dedicated to studying the interactions between them. Here we investigate the integration of feature and texture compression, and show that a universal and collaborative visual information representation can be achieved in a hierarchical way. In particular, we study the feature and texture compression in a scalable coding framework, where the base layer serves as the deep learning feature and enhancement layer targets to perfectly reconstruct the texture. Based on the strong generative capability of deep neural networks, the gap between the base feature layer and enhancement layer is further filled with the feature level texture reconstruction, aiming to further construct texture representation from feature. As such, the residuals between the original and reconstructed texture could be further conveyed in the enhancement layer. To improve the efficiency of the proposed framework, the base layer neural network is trained in a multi-task manner such that the learned features enjoy both high quality reconstruction and high accuracy analysis. We further demonstrate the framework and optimization strategies in face image compression, and promising coding performance has been achieved in terms of both rate-fidelity and rate-accuracy.
updated: Mon Apr 19 2021 16:40:09 GMT+0000 (UTC)
published: Tue Apr 21 2020 14:32:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト