画像を構成する視覚パターンに解析することは、画像を理解して表現するのに役立つと常に信じられています。それにもかかわらず、自然言語の発話で画像を記述するというアイデアを支持する証拠はありませんでした。このホワイトペーパーでは、インスタンスレベル(セグメンテーション)、リージョンレベル(検出)から画像全体までの階層をモデル化する新しいデザインを導入して、キャプションの完全な画像理解を掘り下げます。具体的には、階層構造を画像エンコーダーに新規に統合する階層解析(HIP)アーキテクチャーを示します。技術的には、画像は一連の領域に分解され、一部の領域はより細かい領域に解決されます。次に、各領域はインスタンス、つまり領域の前景に回帰します。このようなプロセスにより、階層ツリーが自然に構築されます。次に、ツリー構造のLong Short-Term Memory(Tree-LSTM)ネットワークを使用して、階層構造を解釈し、インスタンスレベル、リージョンレベル、およびイメージレベルのすべての機能を強化します。私たちのHIPは、どの神経キャプションモデルにもプラグインできるという点で魅力的です。 COCO画像キャプションデータセットに関する広範な実験により、HIPの優位性が実証されています。さらに注目すべきことに、HIPとトップダウンのアテンションベースのLSTMデコーダーにより、COCO Karpathyテスト分割のCIDEr-Dパフォーマンスが120.1%から127.2%に向上します。 Graph Convolutional Networks(GCN)を通じて学習された意味関係を使用して、HIPからインスタンスレベルおよびリージョンレベルの機能をさらに提供すると、CIDEr-Dは最大130.6%ブーストされます。
It is always well believed that parsing an image into constituent visual patterns would be helpful for understanding and representing an image. Nevertheless, there has not been evidence in support of the idea on describing an image with a natural-language utterance. In this paper, we introduce a new design to model a hierarchy from instance level (segmentation), region level (detection) to the whole image to delve into a thorough image understanding for captioning. Specifically, we present a HIerarchy Parsing (HIP) architecture that novelly integrates hierarchical structure into image encoder. Technically, an image decomposes into a set of regions and some of the regions are resolved into finer ones. Each region then regresses to an instance, i.e., foreground of the region. Such process naturally builds a hierarchal tree. A tree-structured Long Short-Term Memory (Tree-LSTM) network is then employed to interpret the hierarchal structure and enhance all the instance-level, region-level and image-level features. Our HIP is appealing in view that it is pluggable to any neural captioning models. Extensive experiments on COCO image captioning dataset demonstrate the superiority of HIP. More remarkably, HIP plus a top-down attention-based LSTM decoder increases CIDEr-D performance from 120.1% to 127.2% on COCO Karpathy test split. When further endowing instance-level and region-level features from HIP with semantic relation learnt through Graph Convolutional Networks (GCN), CIDEr-D is boosted up to 130.6%.