arXiv reaDer
BERTHA:転送で学習した人間の評価によるビデオキャプションの評価
BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment
ビデオキャプションシステムの評価は、考慮すべき要素が複数あるため、困難な作業です。たとえば、キャプションの流暢さ、1つのシーンで発生する複数のアクション、重要と見なされるものに対する人間の偏見などです。ほとんどのメトリクスは、システムで生成されたキャプションが、人間が注釈を付けた単一またはセットのキャプションとどの程度類似しているかを測定しようとします。この論文は、これらのシステムを評価するための深層学習モデルに基づく新しい方法を提示します。このモデルはBERTに基づいています。これは、複数のNLPタスクで適切に機能することが示されている言語モデルです。目的は、モデルが人間と同様の評価を実行することを学習することです。そのために、システムで生成されたキャプションの人間による評価を含むデータセットを使用します。データセットは、TRECVidビデオからテキストへのタスクのさまざまな年に参加しているシステムによって生成されたキャプションの人間による判断で構成されています。これらの注釈は公開されます。 BERTHAは良好な結果を取得し、一部の設定で一般的に使用されるメトリックを上回ります。
Evaluating video captioning systems is a challenging task as there are multiple factors to consider; for instance: the fluency of the caption, multiple actions happening in a single scene, and the human bias of what is considered important. Most metrics try to measure how similar the system generated captions are to a single or a set of human-annotated captions. This paper presents a new method based on a deep learning model to evaluate these systems. The model is based on BERT, which is a language model that has been shown to work well in multiple NLP tasks. The aim is for the model to learn to perform an evaluation similar to that of a human. To do so, we use a dataset that contains human evaluations of system generated captions. The dataset consists of the human judgments of the captions produce by the system participating in various years of the TRECVid video to text task. These annotations will be made publicly available. BERTHA obtain favourable results, outperforming the commonly used metrics in some setups.
updated: Mon Apr 11 2022 10:29:53 GMT+0000 (UTC)
published: Tue Jan 25 2022 11:29:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト