画像ベースの単一モダリティ圧縮学習アプローチは、過去数年間で非常に強力なエンコードおよびデコード機能を実証してきましたが、非常に低いビットレートではぼやけや深刻なセマンティクスの損失に悩まされています。この問題に対処するために、テキストガイド付き画像圧縮のためのマルチモーダル機械学習方法を提案します。この方法では、テキストのセマンティック情報を事前情報として使用して、画像圧縮をガイドし、圧縮パフォーマンスを向上させます。コーデックのさまざまなコンポーネントにおけるテキスト記述の役割を十分に研究し、その有効性を実証します。さらに、画像とテキストのアテンション モジュールと画像リクエスト補完モジュールを採用して、画像とテキストの特徴をより適切に融合し、意味的に完全な再構成を生成するための改善されたマルチモーダル セマンティック コンシステント ロスを提案します。ユーザー調査を含む広範な実験により、私たちの方法が非常に低いビットレートで視覚的に満足のいく結果を得ることができ、これらの方法が2倍から4倍のビットレートであっても、最先端の方法と同等またはそれ以上のパフォーマンスを達成できることが証明されています。私たちの。
Image-based single-modality compression learning approaches have demonstrated exceptionally powerful encoding and decoding capabilities in the past few years , but suffer from blur and severe semantics loss at extremely low bitrates. To address this issue, we propose a multimodal machine learning method for text-guided image compression, in which the semantic information of text is used as prior information to guide image compression for better compression performance. We fully study the role of text description in different components of the codec, and demonstrate its effectiveness. In addition, we adopt the image-text attention module and image-request complement module to better fuse image and text features, and propose an improved multimodal semantic-consistent loss to produce semantically complete reconstructions. Extensive experiments, including a user study, prove that our method can obtain visually pleasing results at extremely low bitrates, and achieves a comparable or even better performance than state-of-the-art methods, even though these methods are at 2x to 4x bitrates of ours.