自然言語生成 (NLG) の自動評価は、従来、テキスト参照とのトークン レベルまたは埋め込みレベルの比較に依存しています。これは、視覚的想像力がしばしば理解力を向上させる人間の言語処理とは異なります。この作業では、自然言語生成のための想像力に基づく自動評価メトリックである ImaginE を提案します。最先端のテキストから画像へのジェネレーターである StableDiffusion の助けを借りて、テキスト スニペットの具現化された想像力として画像を自動的に生成し、文脈埋め込みを使用して想像力の類似性を計算します。いくつかのテキスト生成タスクにまたがる実験は、ImaginE を使用して機械生成画像を追加すると、マルチモーダル情報を NLG 評価に導入する大きな可能性を示し、参照ベースおよび参照なしの評価の両方で、既存の自動メトリックと人間の類似性判断との相関を改善することを示しています。シナリオ。
Automatic evaluations for natural language generation (NLG) conventionally rely on token-level or embedding-level comparisons with text references. This differs from human language processing, for which visual imagination often improves comprehension. In this work, we propose ImaginE, an imagination-based automatic evaluation metric for natural language generation. With the help of StableDiffusion, a state-of-the-art text-to-image generator, we automatically generate an image as the embodied imagination for the text snippet and compute the imagination similarity using contextual embeddings. Experiments spanning several text generation tasks demonstrate that adding machine-generated images with our ImaginE displays great potential in introducing multi-modal information into NLG evaluation, and improves existing automatic metrics' correlations with human similarity judgments in both reference-based and reference-free evaluation scenarios.