arXiv reaDer
編集されたメディアの理解:操作された画像の意味についての推論
Edited Media Understanding: Reasoning About Implications of Manipulated Images
「ディープフェイク」から欺く単純な編集まで、マルチモーダルな偽情報は重要な社会的問題です。それでも同時に、メディア編集の大部分は無害です-フィルタリングされた休暇の写真など。この例と、偽情報を広める有害な編集との違いは、意図の1つです。この意図を認識して説明することは、今日のAIシステムにとって大きな課題です。編集されたメディアの理解のタスクを提示し、モデルが画像編集の意図と影響を捉える自由形式の質問に答えることを要求します。豊富な自然言語で書かれた48kの質問と回答のペアを使用して、タスクのデータセットEMUを紹介します。私たちは、私たちのタスクのためにさまざまな視覚と言語のモデルを評価し、事前に訓練されたマルチモーダル表現の最近の進歩に基づいて構築された新しいモデルPELICANを紹介します。私たちのモデルは、データセットで有望な結果を取得し、人間はその答えを40.35%の確率で正確であると評価しています。同時に、やるべきことはまだたくさんあります-人間は93.56%の確率で人間が注釈を付けたキャプションを好みます-そして私たちはさらなる進歩のための領域を強調する分析を提供します。
Multimodal disinformation, from `deepfakes' to simple edits that deceive, is an important societal problem. Yet at the same time, the vast majority of media edits are harmless -- such as a filtered vacation photo. The difference between this example, and harmful edits that spread disinformation, is one of intent. Recognizing and describing this intent is a major challenge for today's AI systems. We present the task of Edited Media Understanding, requiring models to answer open-ended questions that capture the intent and implications of an image edit. We introduce a dataset for our task, EMU, with 48k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 40.35% of the time. At the same time, there is still much work to be done -- humans prefer human-annotated captions 93.56% of the time -- and we provide analysis that highlights areas for further progress.
updated: Tue Dec 08 2020 20:30:43 GMT+0000 (UTC)
published: Tue Dec 08 2020 20:30:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト