arXiv reaDer
データ拡張とエピソード記憶による適応性のあるインタラクティブな画像キャプション作成に向けて
Towards Adaptable and Interactive Image Captioning with Data Augmentation and Episodic Memory
インタラクティブ機械学習 (IML) は、人間のフィードバックがトレーニング プロセスに段階的に統合されるため、利用可能なデータが限られている場合に有益な学習パラダイムです。このペーパーでは、事前トレーニングされた画像キャプション モデルをユーザー入力に基づいた新しいデータ分布に段階的に適応できる画像キャプション用の IML パイプラインを紹介します。ユーザー入力をモデルに組み込むために、単純なデータ拡張手法の組み合わせの使用を検討して、新しく注釈が付けられたデータ インスタンスごとに大きなデータ バッチを取得し、繰り返しの更新による壊滅的な忘れを防ぐ継続的な学習手法を実装します。私たちの実験では、ドメイン固有の画像キャプション データセット、つまり VizWiz を重複しない部分に分割し、モデルを新しいデータに継続的に適応させるための増分入力フローをシミュレートしました。データの増強は結果を悪化させる一方で、利用可能なデータが比較的少量であっても、エピソード記憶は以前に見たクラスターからの知識を保持する効果的な戦略であることがわかりました。
Interactive machine learning (IML) is a beneficial learning paradigm in cases of limited data availability, as human feedback is incrementally integrated into the training process. In this paper, we present an IML pipeline for image captioning which allows us to incrementally adapt a pre-trained image captioning model to a new data distribution based on user input. In order to incorporate user input into the model, we explore the use of a combination of simple data augmentation methods to obtain larger data batches for each newly annotated data instance and implement continual learning methods to prevent catastrophic forgetting from repeated updates. For our experiments, we split a domain-specific image captioning dataset, namely VizWiz, into non-overlapping parts to simulate an incremental input flow for continually adapting the model to new data. We find that, while data augmentation worsens results, even when relatively small amounts of data are available, episodic memory is an effective strategy to retain knowledge from previously seen clusters.
updated: Tue Jun 06 2023 08:38:10 GMT+0000 (UTC)
published: Tue Jun 06 2023 08:38:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト