arXiv reaDer
Visual Dialogue without Vision or Dialogue
  Visual Dialogueの探求におけるいくつかの癖と欠点を特徴付けます。これは、与えられた視覚刺激によって質問と対応する回答が関連付けられる連続的な質問回答タスクです。これを行うために、標準データセットで、平均ランク(MR)でほぼ最先端のパフォーマンスを達成する、Canonical Correlation Analysis(CCA)に基づく恥ずかしいほど簡単な方法を開発します。計算と時間の両方が集中する現在の複雑で過剰なパラメータ化されたアーキテクチャとは対照的に、この方法は視覚刺激を無視し、ダイアログのシーケンスを無視し、勾配を必要とせず、既製の機能抽出器を使用し、少なくとも桁違いに少ないパラメーターで、実質的に短時間で学習します。これらの結果は、Visual Dialogueに対する現在のアプローチの問題を示していると主張し、暗黙的なデータセットバイアスと過度に制約された評価指標の影響を強調する分析を実施します。私たちのコードは公開されています。
We characterise some of the quirks and shortcomings in the exploration of Visual Dialogue - a sequential question-answering task where the questions and corresponding answers are related through given visual stimuli. To do so, we develop an embarrassingly simple method based on Canonical Correlation Analysis (CCA) that, on the standard dataset, achieves near state-of-the-art performance on mean rank (MR). In direct contrast to current complex and over-parametrised architectures that are both compute and time intensive, our method ignores the visual stimuli, ignores the sequencing of dialogue, does not need gradients, uses off-the-shelf feature extractors, has at least an order of magnitude fewer parameters, and learns in practically no time. We argue that these results are indicative of issues in current approaches to Visual Dialogue and conduct analyses to highlight implicit dataset biases and effects of over-constrained evaluation metrics. Our code is publicly available.
updated: Tue Oct 22 2019 10:09:41 GMT+0000 (UTC)
published: Sun Dec 16 2018 08:18:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト