arXiv reaDer
TAB-VCR:タグおよび属性ベースの視覚的常識推論ベースライン
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines
 推論は、私たちが幼い頃から学ぶ重要な能力です。しかし、アルゴリズムの推論は非常に困難です。視覚的な質問への回答や視覚的な対話など、推論を必要とするタスクについて報告されている印象的な最近の進歩にもかかわらず、モデルは多くの場合、データセットのバイアスを活用します。優れた推論能力を持つモデルを開発するために、最近、新しい視覚常識推論(VCR)タスクが導入されました。モデルは質問に答える必要があるだけでなく、与えられた答えの理由を提供する必要もあります。提案されたベースラインは、LSTMモジュールとアテンションネットで構成される綿密に設計されたモデルを活用して、説得力のある結果を達成しました。ここでは、既存の複雑なベースラインを除去およびプルーニングすることで得られるはるかに単純なモデルが、トレーニング可能なパラメーターの数が半分の場合にパフォーマンスが向上することを示します。視覚的特徴を属性情報に関連付け、より優れたテキストを画像グラウンディングに関連付けることで、よりシンプルで効果的なベースラインであるTAB-VCRのさらなる改善が得られます。このアプローチにより、質問への回答、回答の正当化、および全体的なVCRに関する従来の最新技術よりも5.3%、4.4%、6.5%の絶対的な改善が得られることがわかります。
Reasoning is an important ability that we learn from a very early age. Yet, reasoning is extremely hard for algorithms. Despite impressive recent progress that has been reported on tasks that necessitate reasoning, such as visual question answering and visual dialog, models often exploit biases in datasets. To develop models with better reasoning abilities, recently, the new visual commonsense reasoning (VCR) task has been introduced. Not only do models have to answer questions, but also do they have to provide a reason for the given answer. The proposed baseline achieved compelling results, leveraging a meticulously designed model composed of LSTM modules and attention nets. Here we show that a much simpler model obtained by ablating and pruning the existing intricate baseline can perform better with half the number of trainable parameters. By associating visual features with attribute information and better text to image grounding, we obtain further improvements for our simpler & effective baseline, TAB-VCR. We show that this approach results in a 5.3%, 4.4% and 6.5% absolute improvement over the previous state-of-the-art on question answering, answer justification and holistic VCR.
updated: Thu Jan 09 2020 15:55:26 GMT+0000 (UTC)
published: Thu Oct 31 2019 17:59:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト