この論文では、単語ベクトルベースのモデルを新しいテキストデータに適合させる問題に焦点を当てます。大きな参照データで事前にトレーニングされたモデルがある場合、言語分布がわずかに異なる小さなデータにどのように適合させることができますか?適応問題を単一言語の単語ベクトルアライメント問題としてフレーム化し、アライメント後のモデルを単純に平均化します。 RCSLS基準を使用してベクトルを整列します。私たちの定式化により、変化する単語分布に汎用モデルを適応させることができるシンプルで効率的なアルゴリズムが得られます。評価では、単語の埋め込みおよびテキスト分類モデルへの適用を検討します。提案されたアプローチは、すべてのセットアップで良好なパフォーマンスをもたらし、新しいデータでモデルを微調整することで構成されるベースラインを上回ることを示します。
In this paper, we focus on the problem of adapting word vector-based models to new textual data. Given a model pre-trained on large reference data, how can we adapt it to a smaller piece of data with a slightly different language distribution? We frame the adaptation problem as a monolingual word vector alignment problem, and simply average models after alignment. We align vectors using the RCSLS criterion. Our formulation results in a simple and efficient algorithm that allows adapting general-purpose models to changing word distributions. In our evaluation, we consider applications to word embedding and text classification models. We show that the proposed approach yields good performance in all setups and outperforms a baseline consisting in fine-tuning the model on new data.