Exploiting BERT For Multimodal Target Sentiment Classification Through Input Space Translation
マルチモーダルターゲット/アスペクト感情分類は、マルチモーダル感情分析とアスペクト/ターゲット感情分類を組み合わせたものです。タスクの目標は、ビジョンと言語を組み合わせて、文のターゲットエンティティに対する感情を理解することです。 Twitterは本質的にマルチモーダルで、非常に感情的であり、現実世界のイベントに影響を与えるため、このタスクに理想的な設定です。ただし、マルチモーダルツイートは短く、複雑で、おそらく無関係な画像が付随しています。オブジェクト認識トランスフォーマーを使用して入力空間の画像を変換する2ストリームモデルと、それに続くシングルパスの非自己回帰テキスト生成アプローチを紹介します。次に、翻訳を活用して、言語モデルにマルチモーダル情報を提供する補助文を作成します。私たちのアプローチは、言語モデルで利用できるテキストの量を増やし、複雑な画像のオブジェクトレベルの情報を抽出します。マルチモーダルデータを受け入れるように言語モデルの内部を変更することなく、2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現し、翻訳の有効性を示しています。さらに、ツイートに適用した場合のアスペクト感情分析の一般的なアプローチの失敗モードについて説明します。私たちのコードはblueで入手できます。
Multimodal target/aspect sentiment classification combines multimodal sentiment analysis and aspect/target sentiment classification. The goal of the task is to combine vision and language to understand the sentiment towards a target entity in a sentence. Twitter is an ideal setting for the task because it is inherently multimodal, highly emotional, and affects real world events. However, multimodal tweets are short and accompanied by complex, possibly irrelevant images. We introduce a two-stream model that translates images in input space using an object-aware transformer followed by a single-pass non-autoregressive text generation approach. We then leverage the translation to construct an auxiliary sentence that provides multimodal information to a language model. Our approach increases the amount of text available to the language model and distills the object-level information in complex images. We achieve state-of-the-art performance on two multimodal Twitter datasets without modifying the internals of the language model to accept multimodal data, demonstrating the effectiveness of our translation. In addition, we explain a failure mode of a popular approach for aspect sentiment analysis when applied to tweets. Our code is available at blue
updated: Thu Aug 05 2021 20:58:17 GMT+0000 (UTC)
published: Tue Aug 03 2021 18:02:38 GMT+0000 (UTC)
