The New Yorker Caption Contest の洗練されたマルチモーダル ユーモアの「理解を実証」するために、AI モデルに挑戦します。具体的には、イメージとキャプションの間の潜在的に複雑で予想外の関係、および多種多様な人間の経験に対する同様に複雑で予想外の暗示を把握するのに十分な (しかし必須ではない) 3 つの慎重に制限されたタスクを開発します。これらは、ニューヨーカー級の漫画の特徴です。漫画のピクセルとキャプションを直接入力として受け取る視覚と言語のモデル、および画像のテキスト記述を提供することで画像処理を回避する言語のみのモデルを調査します。漫画の画像に豊富な多面的な注釈を提供しても、高品質の機械学習モデル (微調整された 175B パラメーター言語モデルなど) と人間との間のパフォーマンスのギャップを特定します。画像の場所/エンティティ、シーンの異常な点、ジョークの説明を説明する注釈を含むコーパスを公開します。
We challenge AI models to "demonstrate understanding" of the sophisticated multimodal humor of The New Yorker Caption Contest. Concretely, we develop three carefully circumscribed tasks for which it suffices (but is not necessary) to grasp potentially complex and unexpected relationships between image and caption, and similarly complex and unexpected allusions to the wide varieties of human experience; these are the hallmarks of a New Yorker-caliber cartoon. We investigate vision-and-language models that take as input the cartoon pixels and caption directly, as well as language-only models for which we circumvent image-processing by providing textual descriptions of the image. Even with the rich multifaceted annotations we provide for the cartoon images, we identify performance gaps between high-quality machine learning models (e.g., a fine-tuned, 175B parameter language model) and humans. We publicly release our corpora including annotations describing the image's locations/entities, what's unusual about the scene, and an explanation of the joke.