arXiv reaDer
人間を画像キャプションのループに入れる
Putting Humans in the Image Captioning Loop
画像キャプション (IC) モデルは、特にデータが限られている場合、トレーニング プロセスにおける人間のフィードバックから大きなメリットを得ることができます。ユーザー固有のデータに簡単に適応できるようにすることを目的として、人間のフィードバックを統合するために IC システムを適応させる進行中の作業を紹介します。私たちのアプローチは、MS COCO データセットで事前トレーニングされた基本 IC モデルに基づいて構築されており、未表示の画像のキャプションを生成します。ユーザーは、画像および生成/予測されたキャプションに関するフィードバックを提供できるようになります。これらは、モデルを適応させるための追加のトレーニング インスタンスを作成するために強化されます。追加のインスタンスは段階的な更新を使用してモデルに統合され、致命的な忘却を回避するためにスパース メモリ再生コンポーネントが使用されます。私たちは、このアプローチが結果の向上につながると同時に、カスタマイズ可能な IC モデルも実現することを期待しています。
Image Captioning (IC) models can highly benefit from human feedback in the training process, especially in cases where data is limited. We present work-in-progress on adapting an IC system to integrate human feedback, with the goal to make it easily adaptable to user-specific data. Our approach builds on a base IC model pre-trained on the MS COCO dataset, which generates captions for unseen images. The user will then be able to offer feedback on the image and the generated/predicted caption, which will be augmented to create additional training instances for the adaptation of the model. The additional instances are integrated into the model using step-wise updates, and a sparse memory replay component is used to avoid catastrophic forgetting. We hope that this approach, while leading to improved results, will also result in customizable IC models.
updated: Tue Jun 06 2023 07:50:46 GMT+0000 (UTC)
published: Tue Jun 06 2023 07:50:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト