対になっていない言語間での画像キャプションは、転送中の意味論的シーンと構文属性の不一致により、無関係性と流暢性の問題に長い間悩まされてきました。この研究では、シーン グラフ (SG) 構造と構文構成 (SC) ツリーを組み込むことによって、上記の問題に対処することを提案します。私たちのキャプショナーには、意味構造に基づいた画像からピボットへのキャプションと、構文構造に基づいたピボットからターゲットへの翻訳が含まれており、そのうち 2 つはピボット言語を介して結合されます。次に、SG 構造と SC 構造をピボットとして取り上げ、クロスモーダル意味構造アライメントとクロス言語構文構造アライメント学習を実行します。さらに、キャプションと翻訳の段階を完全に調整するために、クロスリンガルおよびクロスモーダル逆翻訳トレーニングを導入します。英語から中国語への転送に関する実験では、キャプションの関連性と流暢性の向上において、私たちのモデルが大きな優位性を示していることがわかりました。
Unpaired cross-lingual image captioning has long suffered from irrelevancy and disfluency issues, due to the inconsistencies of the semantic scene and syntax attributes during transfer. In this work, we propose to address the above problems by incorporating the scene graph (SG) structures and the syntactic constituency (SC) trees. Our captioner contains the semantic structure-guided image-to-pivot captioning and the syntactic structure-guided pivot-to-target translation, two of which are joined via pivot language. We then take the SG and SC structures as pivoting, performing cross-modal semantic structure alignment and cross-lingual syntactic structure alignment learning. We further introduce cross-lingual&cross-modal back-translation training to fully align the captioning and translation stages. Experiments on English-Chinese transfers show that our model shows great superiority in improving captioning relevancy and fluency.