arXiv reaDer
深層生成モデルを使用した低帯域幅のビデオチャット圧縮
Low Bandwidth Video-Chat Compression using Deep Generative Models
接続性の悪さや手ごろな価格のデータコストによって妨げられている何億人もの人々のビデオチャットのロックを解除するために、送信者側で抽出されてネットワーク経由で送信される顔のランドマークを使用して、受信者のデバイスで顔を確実に再構築することを提案します。これに関連して、いくつかの深い敵対的アプローチのメリットとデメリットについて説明し、評価します。特に、静的ランドマーク、動的ランドマーク、またはセグメンテーションマップに基づくアプローチの品質と帯域幅のトレードオフを調査します。 Siarohinらの一次アニメーションモデルに基づいて、モバイル互換アーキテクチャを設計します。さらに、SPADEブロックを活用して、目や唇などの重要な領域の結果を改善します。ネットワークを約3MBに圧縮し、モデルをiPhone 8(CPU)でリアルタイムに実行できるようにします。このアプローチにより、現在利用可能な代替手段よりも1桁低い、毎秒数キロビットでのビデオ通話が可能になります。
To unlock video chat for hundreds of millions of people hindered by poor connectivity or unaffordable data costs, we propose to authentically reconstruct faces on the receiver's device using facial landmarks extracted at the sender's side and transmitted over the network. In this context, we discuss and evaluate the benefits and disadvantages of several deep adversarial approaches. In particular, we explore quality and bandwidth trade-offs for approaches based on static landmarks, dynamic landmarks or segmentation maps. We design a mobile-compatible architecture based on the first order animation model of Siarohin et al. In addition, we leverage SPADE blocks to refine results in important areas such as the eyes and lips. We compress the networks down to about 3MB, allowing models to run in real time on iPhone 8 (CPU). This approach enables video calling at a few kbits per second, an order of magnitude lower than currently available alternatives.
updated: Tue Dec 01 2020 08:17:00 GMT+0000 (UTC)
published: Tue Dec 01 2020 08:17:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト