arXiv reaDer
画像キャプションのための因果的介入を伴う依存マルチタスク学習
Dependent Multi-Task Learning with Causal Intervention for Image Captioning
画像キャプションに関する最近の作業は、主に抽出してから生成するパラダイムに従い、オブジェクトベースの機能のシーケンスを事前に抽出してから、単一のシーケンス間タスクとして画像キャプションを作成しました。有望ではありますが、生成されたキャプションに2つの問題がありました。1)モデルが矛盾する事実を生成するコンテンツの不整合。 2)モデルが重要な情報の一部を見逃してしまうほど情報が不足している。因果関係の観点から、その理由は、モデルが視覚的特徴と特定の表現(たとえば、「長い髪」と「女性」の視覚的特徴)の間の疑似統計的相関をキャプチャしたためです。この論文では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案します。最初に、中間タスクであるバッグオブカテゴリの生成を行い、最後のタスクである画像のキャプションを作成します。中間タスクは、モデルが視覚的特徴をよりよく理解するのに役立ち、したがってコンテンツの不整合の問題を軽減します。次に、Pearlの微積分をモデルに適用し、視覚的特徴と考えられる交絡因子の間のリンクを切断して、モデルが原因となる視覚的特徴に焦点を合わせられるようにします。具体的には、高周波の概念セットは、実際の交絡因子が連続空間で推測される代理交絡因子と見なされます。最後に、マルチエージェント強化学習(MARL)戦略を使用して、エンドツーエンドのトレーニングを可能にし、タスク間のエラーの蓄積を減らします。広範な実験により、私たちのモデルはベースラインモデルを上回り、最先端のモデルで競争力のあるパフォーマンスを達成していることが示されています。
Recent work for image captioning mainly followed an extract-then-generate paradigm, pre-extracting a sequence of object-based features and then formulating image captioning as a single sequence-to-sequence task. Although promising, we observed two problems in generated captions: 1) content inconsistency where models would generate contradicting facts; 2) not informative enough where models would miss parts of important information. From a causal perspective, the reason is that models have captured spurious statistical correlations between visual features and certain expressions (e.g., visual features of "long hair" and "woman"). In this paper, we propose a dependent multi-task learning framework with the causal intervention (DMTCI). Firstly, we involve an intermediate task, bag-of-categories generation, before the final task, image captioning. The intermediate task would help the model better understand the visual features and thus alleviate the content inconsistency problem. Secondly, we apply Pearl's do-calculus on the model, cutting off the link between the visual features and possible confounders and thus letting models focus on the causal visual features. Specifically, the high-frequency concept set is considered as the proxy confounders where the real confounders are inferred in the continuous space. Finally, we use a multi-agent reinforcement learning (MARL) strategy to enable end-to-end training and reduce the inter-task error accumulations. The extensive experiments show that our model outperforms the baseline models and achieves competitive performance with state-of-the-art models.
updated: Tue May 18 2021 14:57:33 GMT+0000 (UTC)
published: Tue May 18 2021 14:57:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト