画像のキャプションは、コンピュータビジョンと自然言語処理の分野で長年の問題です。これまで、研究者はディープラーニングの時代に印象的な最先端のパフォーマンスを生み出してきました。ただし、これらの最先端技術のほとんどは、モデルをトレーニングするために、大量の注釈付きの画像とキャプションのペアを必要とします。関心のある画像データセットが与えられた場合、開業医はトレーニングセット内の各画像のキャプションに注釈を付ける必要があり、このプロセスは新しく収集された画像データセットごとに行う必要があります。このホワイトペーパーでは、教師なし画像のキャプションのタスクについて説明します。教師なし画像のキャプションでは、ペアになっていない画像とテキストを使用してモデルをトレーニングし、テキストが画像とは異なるソースから取得できるようにします。効果的であることが示されているこのトピックに関する研究の主な学校は、オブジェクトの重なりに応じて、トレーニングセット内の画像とテキストからペアを構築することです。ただし、監視対象の設定とは異なり、これらの構築されたペアリングは、オブジェクトのセットが完全にオーバーラップすることが保証されていません。この論文での私たちの仕事は、同じ画像に属していない場合でも、トレーニングセットから特定の文に対応するオブジェクトを収集することによってこれを克服します。変圧器への入力として使用される場合、そのようなオブジェクトの混合は、完全ではないにしてもより大きなオブジェクトカバレッジを可能にし、対応する文によって監視されると、現在の監視されていない方法を大幅に上回る結果を生成します。この発見に基づいて、さらに次のことを示します。(1)オブジェクトとオブジェクトの属性との関係に関する追加情報もパフォーマンスの向上に役立ちます。 (2)私たちの方法は、英語以外の画像のキャプションにもうまく拡張されます。これは通常、注釈のレベルが低いという問題があります。私たちの調査結果は、強力な経験的結果によって裏付けられています。私たちのコードはhttps://github.com/zihangm/obj-centric-unsup-captionで入手できます。
Image captioning is a longstanding problem in the field of computer vision and natural language processing. To date, researchers have produced impressive state-of-the-art performance in the age of deep learning. Most of these state-of-the-art, however, requires large volume of annotated image-caption pairs in order to train their models. When given an image dataset of interests, practitioner needs to annotate the caption for each image in the training set and this process needs to happen for each newly collected image dataset. In this paper, we explore the task of unsupervised image captioning which utilizes unpaired images and texts to train the model so that the texts can come from different sources than the images. A main school of research on this topic that has been shown to be effective is to construct pairs from the images and texts in the training set according to their overlap of objects. Unlike in the supervised setting, these constructed pairings are however not guaranteed to have fully overlapping set of objects. Our work in this paper overcomes this by harvesting objects corresponding to a given sentence from the training set, even if they don't belong to the same image. When used as input to a transformer, such mixture of objects enables larger if not full object coverage, and when supervised by the corresponding sentence, produced results that outperform current state of the art unsupervised methods by a significant margin. Building upon this finding, we further show that (1) additional information on relationship between objects and attributes of objects also helps in boosting performance; and (2) our method also extends well to non-English image captioning, which usually suffers from a scarcer level of annotations. Our findings are supported by strong empirical results. Our code is available at https://github.com/zihangm/obj-centric-unsup-caption.