クラウドベースの画像分類アプリケーションを対象に、Transformersを使用したエンドツーエンドの画像圧縮および分析モデルを提案します。既存のTransformerベースの画像分類モデルを画像コーデックの直後に配置する代わりに、Vision Transformer(ViT)モデルを再設計して、圧縮されたフィーチャから画像分類を実行し、Transformerからの長期情報を使用して画像の圧縮を容易にすることを目指しています。具体的には、最初にViTモデルのパッチ化ステム(つまり、画像の分割と埋め込み)を、畳み込みニューラルネットワークによってモデル化された軽量の画像エンコーダーに置き換えます。画像エンコーダーによって生成された圧縮された特徴は、畳み込み誘導バイアスが注入され、画像再構成をバイパスして画像分類のためにトランスフォーマーに供給されます。一方、圧縮された機能をTransformerの選択された中間機能と融合し、画像再構成のために集約された機能をデコンボリューションニューラルネットワークにフィードする機能集約モジュールを提案します。集約された機能は、Transformerの自己注意メカニズムから長期的な情報を取得し、圧縮パフォーマンスを向上させることができます。レート歪み精度の最適化問題は、2段階のトレーニング戦略によって最終的に解決されます。実験結果は、画像圧縮と分類タスクの両方で提案されたモデルの有効性を示しています。
We propose an end-to-end image compression and analysis model with Transformers, targeting to the cloud-based image classification application. Instead of placing an existing Transformer-based image classification model directly after an image codec, we aim to redesign the Vision Transformer (ViT) model to perform image classification from the compressed features and facilitate image compression with the long-term information from the Transformer. Specifically, we first replace the patchify stem (i.e., image splitting and embedding) of the ViT model with a lightweight image encoder modelled by a convolutional neural network. The compressed features generated by the image encoder are injected convolutional inductive bias and are fed to the Transformer for image classification bypassing image reconstruction. Meanwhile, we propose a feature aggregation module to fuse the compressed features with the selected intermediate features of the Transformer, and feed the aggregated features to a deconvolutional neural network for image reconstruction. The aggregated features can obtain the long-term information from the self-attention mechanism of the Transformer and improve the compression performance. The rate-distortion-accuracy optimization problem is finally solved by a two-step training strategy. Experimental results demonstrate the effectiveness of the proposed model in both the image compression and the classification tasks.