視覚的グラウンディング、つまり画像内の自然言語をグラウンディング(つまり、ローカライズ)するタスクには、本質的に複合視覚的推論が必要です。しかし、既存の方法は、言語の複合的な性質をモノリシックな文の埋め込みまたは主語-述語-目的語のトリプレットの大まかな構成に過度に単純化します。この論文では、自然言語を直感的で説明可能な複合的な方法で基礎づけることを提案します。具体的には、文の依存関係解析ツリーに沿って視覚的グラウンディングを正則化するニューラルモジュールツリーネットワーク(NMTree)と呼ばれる新しいモジュール式ネットワークを開発します。各ノードは、言語的特徴に従って視覚的注意を計算するニューラルモジュールです。接地スコアは、必要に応じてボトムアップ方向に累積されます。 NMTreeは、複合推論から視覚的根拠を解きほぐし、前者が原始で一般化が容易なパターンにのみ集中できるようにします。解析エラーの影響を軽減するために、Gumbel-Softmax近似とそのストレートスルー勾配推定器を使用して、モジュールアセンブリの離散的な性質を考慮して、モジュールとそのアセンブリをエンドツーエンドでトレーニングします。全体として、提案されたNMTreeは、いくつかのベンチマークで常に最新技術を上回っています。定性的結果は、説明可能なグラウンディングスコアの計算を非常に詳細に示します。
Visual grounding, a task to ground (i.e., localize) natural language in images, essentially requires composite visual reasoning. However, existing methods over-simplify the composite nature of language into a monolithic sentence embedding or a coarse composition of subject-predicate-object triplet. In this paper, we propose to ground natural language in an intuitive, explainable, and composite fashion as it should be. In particular, we develop a novel modular network called Neural Module Tree network (NMTree) that regularizes the visual grounding along the dependency parsing tree of the sentence, where each node is a neural module that calculates visual attention according to its linguistic feature, and the grounding score is accumulated in a bottom-up direction where as needed. NMTree disentangles the visual grounding from the composite reasoning, allowing the former to only focus on primitive and easy-to-generalize patterns. To reduce the impact of parsing errors, we train the modules and their assembly end-to-end by using the Gumbel-Softmax approximation and its straight-through gradient estimator, accounting for the discrete nature of module assembly. Overall, the proposed NMTree consistently outperforms the state-of-the-arts on several benchmarks. Qualitative results show explainable grounding score calculation in great detail.