O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning
ビデオキャプションは、ビデオの理解と言語の生成を組み合わせたものです。ほぼすべてのオブジェクトの詳細を含む静止画像を説明する画像キャプションとは異なり、ビデオキャプションは通常、フレームのシーケンスを考慮し、焦点の合ったオブジェクト、たとえば背景の変化に関係なく焦点が合ったままのオブジェクトに偏ります。したがって、ビデオのキャプションでは、焦点の合ったオブジェクトを検出して適切に収容することが重要です。フォーカスされたオブジェクトの説明を強制し、制御可能なビデオキャプションを実現するために、オブジェクト指向非自己回帰アプローチ(O2NA)を提案します。これは、次の3つのステップでキャプション生成を実行します。1)フォーカスされたオブジェクトを識別し、ターゲットキャプション内の位置を予測します。 2)これらのフォーカスされたオブジェクトの関連する属性ワードと関係ワードを生成して、ドラフトキャプションを形成します。 3)ビデオ情報を組み合わせて、ドラフトキャプションを流暢な最終キャプションに絞り込みます。フォーカスされたオブジェクトが生成され、他の単語よりも前に配置されるため、単語ごとの自己回帰生成プロセスを適用することは困難です。代わりに、非自己回帰アプローチを採用しています。 2つのベンチマークデータセット、つまりMSR-VTTとMSVDでの実験は、O2NAの有効性を示しています。これにより、最先端の製品と競合するが、より高い多様性とより高い推論速度の両方で結果が得られます。
Video captioning combines video understanding and language generation. Different from image captioning that describes a static image with details of almost every object, video captioning usually considers a sequence of frames and biases towards focused objects, e.g., the objects that stay in focus regardless of the changing background. Therefore, detecting and properly accommodating focused objects is critical in video captioning. To enforce the description of focused objects and achieve controllable video captioning, we propose an Object-Oriented Non-Autoregressive approach (O2NA), which performs caption generation in three steps: 1) identify the focused objects and predict their locations in the target caption; 2) generate the related attribute words and relation words of these focused objects to form a draft caption; and 3) combine video information to refine the draft caption to a fluent final caption. Since the focused objects are generated and located ahead of other words, it is difficult to apply the word-by-word autoregressive generation process; instead, we adopt a non-autoregressive approach. The experiments on two benchmark datasets, i.e., MSR-VTT and MSVD, demonstrate the effectiveness of O2NA, which achieves results competitive with the state-of-the-arts but with both higher diversity and higher inference speed.
