arXiv reaDer
ConZIC: サンプリングベースの研磨による制御可能なゼロショット画像キャプション
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing
ゼロショット機能は、ディープ ラーニングの新しい革命と見なされており、精選されたトレーニング データなしで機械がタスクを実行できるようになります。ゼロショット画像キャプション (IC) の良いスタートであり、既存の唯一の成果である ZeroCap は、教師ありトレーニングを放棄し、大規模な事前トレーニング済みモデルの知識を使用して、キャプション内のすべての単語を順次検索します。効果的ではありますが、その自己回帰生成と勾配指向検索メカニズムは、それぞれキャプションの多様性と推論速度を制限します。さらに、ZeroCap はゼロショット IC の制御性の問題を考慮していません。前進するために、ConZIC という名前の制御可能なゼロショット IC のフレームワークを提案します。 ConZIC のコアは、GibbsBERT という名前の新しいサンプリング ベースの非自己回帰言語モデルであり、すべての単語を生成し、継続的に洗練することができます。広範な定量的および定性的な結果は、ゼロショット IC と制御可能なゼロショット IC の両方に対して提案された ConZIC の優れた性能を示しています。特に、ConZIC は ZeroCap よりも約 5 倍高速な生成速度と約 1.5 倍の多様性スコアを達成し、異なる制御信号を与えられた正確な生成を実現します。
Zero-shot capability has been considered as a new revolution of deep learning, letting machines work on tasks without curated training data. As a good start and the only existing outcome of zero-shot image captioning (IC), ZeroCap abandons supervised training and sequentially searches every word in the caption using the knowledge of large-scale pretrained models. Though effective, its autoregressive generation and gradient-directed searching mechanism limit the diversity of captions and inference speed, respectively. Moreover, ZeroCap does not consider the controllability issue of zero-shot IC. To move forward, we propose a framework for Controllable Zero-shot IC, named ConZIC. The core of ConZIC is a novel sampling-based non-autoregressive language model named GibbsBERT, which can generate and continuously polish every word. Extensive quantitative and qualitative results demonstrate the superior performance of our proposed ConZIC for both zero-shot IC and controllable zero-shot IC. Especially, ConZIC achieves about 5x faster generation speed than ZeroCap, and about 1.5x higher diversity scores, with accurate generation given different control signals.
updated: Sat Mar 04 2023 14:59:25 GMT+0000 (UTC)
published: Sat Mar 04 2023 14:59:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト