arXiv reaDer
半構造化数理推論のための方策勾配による動的プロンプト学習
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning
人間の知能のコアとなる能力である数学的推論は、抽象的思考と論理的推論において機械に固有の課題を提示します。 GPT-3 などの最近の大規模な事前トレーニング済み言語モデルは、数学単語問題 (MWP) などのテキスト形式で書かれた数学的推論タスクで目覚ましい進歩を遂げました。ただし、モデルが、表形式のデータなどの異種情報に対する数学推論を含む、より複雑な問題を処理できるかどうかは不明です。このギャップを埋めるために、Tabular Math Word Problems (TabMWP) を提示します。これは、テキスト データと表形式データの両方で数学的推論を必要とする 38,431 のオープン ドメインの学年レベルの問題を含む新しいデータセットです。 TabMWP の各質問は、画像、半構造化テキスト、および構造化テーブルとして表示される表形式のコンテキストに対応しています。質問には、フリーテキストと複数選択の 2 種類があり、各問題には金解法が注釈付けされており、多段階の推論プロセスが明らかになります。数ショット設定の GPT-3 モデルを含む、TabMWP でさまざまな事前トレーニング済みモデルを評価します。以前の研究が示唆しているように、少数ショットの GPT-3 はコンテキスト内の例の選択に依存しているため、そのパフォーマンスは不安定であり、ほぼ偶然に低下する可能性があります。 TabMWP のような複雑な問題を処理する場合、不安定な問題はより深刻になります。これを軽減するために、ポリシー勾配を利用して少量のトレーニング データからコンテキスト内の例を選択することを学習し、テスト例に対応するプロンプトを構築する新しいアプローチ PromptPG をさらに提案します。実験結果は、私たちの方法が精度メトリックで5.31%最高のベースラインを上回り、ランダム選択と比較して予測分散を大幅に削減することを示しています。これにより、コンテキスト内の例を選択する際の有効性が検証されます。
Mathematical reasoning, a core ability of human intelligence, presents unique challenges for machines in abstract thinking and logical reasoning. Recent large pre-trained language models such as GPT-3 have achieved remarkable progress on mathematical reasoning tasks written in text form, such as math word problems (MWP). However, it is unknown if the models can handle more complex problems that involve math reasoning over heterogeneous information, such as tabular data. To fill the gap, we present Tabular Math Word Problems (TabMWP), a new dataset containing 38,431 open-domain grade-level problems that require mathematical reasoning on both textual and tabular data. Each question in TabMWP is aligned with a tabular context, which is presented as an image, semi-structured text, and a structured table. There are two types of questions: free-text and multi-choice, and each problem is annotated with gold solutions to reveal the multi-step reasoning process. We evaluate different pre-trained models on TabMWP, including the GPT-3 model in a few-shot setting. As earlier studies suggest, since few-shot GPT-3 relies on the selection of in-context examples, its performance is unstable and can degrade to near chance. The unstable issue is more severe when handling complex problems like TabMWP. To mitigate this, we further propose a novel approach, PromptPG, which utilizes policy gradient to learn to select in-context examples from a small amount of training data and then constructs the corresponding prompt for the test example. Experimental results show that our method outperforms the best baseline by 5.31% on the accuracy metric and reduces the prediction variance significantly compared to random selection, which verifies its effectiveness in selecting in-context examples.
updated: Thu Mar 02 2023 07:41:55 GMT+0000 (UTC)
published: Thu Sep 29 2022 08:01:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト