https://joisino.hatenablog.com/entry/onedata

推論能力を高めるためには、LLM の事後訓練で使う訓練データは 1 つで十分かもしれません。本稿では訓練データを 1 つだけ使った強化学習についての研究 Reinforcement Learning for Reasoning in Large Language Models with One Training Example（単一の訓練例を用いた大規模言語モデルにおける推論のための強化学習, NeurIPS 2025）について解説します。

この研究の結論を直観的に述べると、厳選した数学の問題 1 問の解き方を LLM にひたすら考えさせ続けると高い推論能力が得られるということです。従来の訓練のように様々な問題を用意する必要はありません。たった 1 問を使った訓練で MATH500 という数学ベンチマークに対する正答率が 36.0% から 73.6% に、6 つの数学ベンチマークの平均正答率が 17.6% から 35.7% に向上しました。

訓練方法は従来のものとほとんど同じですが、特徴的なのは LLM の出力分布のエントロピーが増大するような、つまり多様な出力が促進されるような正則化を用いることです。これにより、同じ問題に対しても別解を考えたり、思考が逸れたときにもリカバリーする力が付いたりすることが期待できます。

以下に手法と実験方法について詳しく述べます。

事前学習済みの LLM を用意します。これはインストラクションチューニングや強化学習を行っていない、事前学習直後のモデルです。

強化学習によりこのモデルの数学能力を向上させることを考えます。強化学習では基本的に、LLM に問題を入力して途中計算と答えを出力させ、答えが合っていれば報酬を与えてその出力確率を上げ、答えが間違えていれば罰則を与えてその答えが生成される確率を下げます。

まず、最終的な訓練に使用するデータを厳選します。このために、全データ（1209 問の数学の問題）を使って従来通りの強化学習を適用します。この訓練の過程で報酬の分散が高い問題ほど、すなわち、LLM が失敗と成功の両方を多く経験する問題ほど良い問題であると定義します。逆に言えば、LLM が間違え続けるか、正解し続ける問題は良い問題ではないとします。この基準で問題を良い順に並べて、最も良い問題 $\pi_1$ を決定します。これで最終的な訓練に使う厳選した数学の問題 1 問を選べました。

この選択の過程でモデルを訓練しましたが、このモデルは破棄します。回りくどいことをしているようですが、厳選した問題で訓練するとどうなるかということを調べたいので、選択のプロセスに労力をかけています。実践上は、訓練に使うデータを選択するために訓練していては本末転倒ですから、より単純な基準で選んだり、人手で品質の高い 1 問を作成することなどが考えられます。後に述べるように、問題の選択基準は多少緩めても 1 問だけを使った訓練は機能することが確認されています。

論文の実験で選ばれた数学の問題 $\pi_1$ は以下の問題でした。

風による帆への圧力 P は、帆の面積 A と、風速 V の3乗に比例して変化する。風速が時速 8 マイルの場合、面積 2 平方フィートの帆にかかる圧力は 4 ポンドである。4 平方フィートの帆にかかる圧力が32ポンドとなるときの風速を求めよ。段階的に考え、最終回答を\boxed{}内に記述せよ。

三乗根の計算がやや難しいですが、初等的な代数の問題です。

さて、厳選した数学の問題 1 問が手に入ったので、LLM にひたすらこの問題を解かせ続けます。

問題 $\pi_1$ をプロンプトとして、ランダムシードを変えて回答を複数生成させます。LLM の出力過程はランダムなので、多様な回答が生成されます。中には正解しているものも間違えているものもあるでしょう。このうち、正解している回答について報酬を与え、その回答が生成される確率を上げます。逆に間違えている回答については罰則を与え、その回答が生成される確率を下げます。これをひたすら繰り返します。また同じ問題 $\pi_1$ を与え、回答を複数生成させ、良いものの確率を上げます。そしてまた同じ問題で訓練、また同じ問題で訓練ということを繰り返します。従来の訓練では各ラウンドで異なるデータを用いますが、この訓練では全てのラウンドで同じデータ $\pi_1$ を使うことが特徴です。また、前述のように更新時にエントロピーが増大するような、つまり多様な出力を促進するような正則化を用います。これにより、同じ問題を入力したときにも多様な解が生成されるようになり、(i) 正解のみ、不正解のみに偏ることなく学習が進む (ii) 同じ問題に対する様々な別解を学習できる (iii) 間違いや寄り道の文章を作成してしまう確率が増えるがそのような場合にも最終的に正解にたどり着き報酬が得られるような方策が学習できる、などの恩恵が考えられます。

以下に実験結果を見ていきます。

精度曲線 [Wang+ NeurIPS 2025]：水色の点線は 1209 問全てで訓練したとき、紺の点線は 7500 問ある別の数学データセットで訓練したとき、緑が 1 問だけで訓練したときを表す。いずれも最終的には似た精度に到達している。

上図はメインの実験の精度曲線です。薄い緑の線が 1 問だけを使った強化学習であり、水色の点線が表す全データを使った強化学習と遜色ない精度を達成できています。次に濃い緑の線は分散が 1 位の厳選した問題 $\pi_1$ でなく、13 位の問題 $\pi_{13}$ を使った場合を表しており、こちらも最終的には全データと遜色ない精度を達成できています。 $\pi_1$ と $\pi_{13}$ の 2 問を使うと途中経過も全データの場合に近くなっています。

冒頭で MATH500 の正答率が 36.0% から 73.6% に、6 つの数学ベンチマークの平均正答率が 17.6% から 35.7% に向上したと述べましたが、精度が倍増という大幅な変化があるのはトリックがあります。もとの精度はインストラクションチューニングを一切していない、事前学習直後のモデルで計測しています。事前学習直後のモデルも問題をほとんど解けることが多いのですが、「最終回答を\boxed{}内に記述せよ。」といった命令を守らないことが多く、\boxed で囲わずに答えを出力してしまって誤答と判定されてしまうことがあります。これでは数学能力が無いのかフォーマットを守っていないだけなのかの区別が付きません。そこでフォーマットが合っていれば報酬を与え、フォーマットが守られていなければ罰則を与える強化学習を適用して LLM にフォーマットを守らせることを考えます。正誤については問わず、ただフォーマットを守ることを覚えさせるだけです。これを適用したときの精度が上図の黄色の点線で表される精度です。フォーマットを守らせるだけで、 MATH500 の正答率が 36.0% から 65.0% に、6 つの数学ベンチマークの平均正答率が 17.6% から 28.7% に大幅に向上しました。事前学習直後のモデルにもそれなりに数学能力があり、フォーマットさえ守らせればある程度の精度が出ることが分かります。しかし、それでも厳選した数学の問題 1 問を使った強化学習の効果が消えるほどではなく、厳選した数学の問題 1 問を使った強化学習にも十分な効果があることが分かります。

訓練精度とテスト精度 [Wang+ NeurIPS 2025]：訓練精度は直ちに 100% になる。その後もテスト精度は徐々に向上する。訓練を続けると訓練精度が少し低下して不安定になる。

上図は訓練精度とテスト精度のプロットです。訓練精度は直ちに 100% になることが分かります。訓練データ 1 つしか使っていないので、すぐにそのデータに適合して完璧な訓練精度になるのは当然です。不思議なのは訓練精度が 100% になった後も訓練をひたすら続けるとテスト精度が徐々に増えることと、訓練を続けると訓練精度が少し低下して不安定になることです。これについてはこの後に解説します。

各ラウンドでの出力例 [Wang+ NeurIPS 2025]：左は訓練で使ったただ一つの問題に対する回答。右は訓練時に未見のテストデータに対する回答。左の例については、訓練開始前には間違えているが、すぐに正答できるようになる。1860 ステップ目にはハングルや文字化けが混入して出力が崩壊するが、水色で示されるように元の問題の思考も出力し、最終的には正答にたどり着く。右の例については、ある程度の訓練ステップ後に正答できるようになり、1860 ステップ目にも崩壊せず正答できている。

上図は各時点での出力例です。前掲のプロットで訓練精度が低下していた 1860 ステップでは、ハングルや文字化けが混入しためちゃくちゃな出力がされています。この結果、モデルはこの問題 $\pi_1$ についてひたすら訓練してきたにもかかわらず、このデータに対しても稀に失敗するようになります。これが前掲のプロットにおいて長期の訓練の後に訓練精度が低下していた原因です。しかしそれでも、90% 以上の大多数の試行では最終的に正答にたどり着いています。上図の 1860 ステップ目の試行でも、全く関係ない文やハングルなどの文字が出力されていますが、水色で示されるようにところどころもとの問題の思考にもどってきて、最終的に正答にたどり着いています。思考が乱れるような困難な状況でも最終的に正答にたどり着く頑健な能力を獲得したと考えられます。

また、右側の訓練に使っていないテストデータでは、このモデルもハングルや文字化けに崩壊することなく、まっとうな途中式を出力し、正答にたどり着いています。

この訓練の過程で、思考の連鎖の長さは徐々に増え、あるタイミングで一気に長くなることが観察されています。これにより、単一の問題をより長い思考の連鎖で取り組むようになります。

また、エントロピーも徐々に増大し、あるタイミングで一気に増大し、極めて多様な出力するようになります。一問しか問題がないと、前に見たように訓練データに対する正答率はすぐに 100% 近くになり、ここからさらに損失を下げるには正則化項のエントロピーを増大させるしかなくなります。このため、モデルは問題を 100% 解ける状態をキープしつつ、エントロピーを徐々に増大させていきます。そしてあるタイミングで思考が崩壊しても元の推論にもどって正答できる能力が身に付きこのタイミングで正答率をほぼ 100% に保ったままエントロピーを極めて大きくできるようになります。これが、訓練を続けると訓練精度が少し低下しつつもテスト性能が向上した理由と考えられます。

上図の緑の線は、訓練データを 1 つだけ使ったときに "rethink," "recheck," "recalculate" などの「内省語 (self-reflection words)」を出力する頻度を示しており、訓練の過程でこれらの単語を用いる頻度が増えることが見てとれます。これらの内省語を用いることで、思考が崩壊しても元の問題の推論に戻ってくることができるようになります。つまり、これらの内省語が身につくと、思考が崩壊しても大丈夫になり、エントロピーを引き上げることができます。逆に言えば、エントロピーを向上させる圧力をかけている環境では、このような内省語を身につけて思考の崩壊に対する耐性が生じます。結果的に、これらの内省語が身につくことで、一般の問題に対してもより確実に正答にたどり着けるようになります。

様々な問題を訓練に使ったときのテスト精度の比較 [Wang+ NeurIPS 2025]

上表は様々な問題を訓練に使ったときのテスト精度を表します。程度の差は多少ありますが、どんな問題でも 1 問だけ使った訓練で数学能力を大きく上げられることが分かります。例外は赤で示されている $\pi_{1207}$ と $\pi_{1208}$ ですが、これは教師ラベルが間違えてつけられているものと、難しすぎて LLM が全く解けない問題です。そのような問題さえ避ければ、どのような問題であれ 1 問を使って徹底的に訓練することで十分高い推論能力が得られます。

なぜ 1 問を使った訓練で十分なのでしょうか。典型的な LLM の事前訓練では億単位の文書を使いますが、これに比べるとスケールが小さすぎます。一番の要因は、知識を身に着ける訓練と、推論能力を身に着ける訓練は別質ということです。知識を身に着けるためには必然的に多くのデータを見せる必要があります。知識獲得を目的とした訓練では数百億などの莫大なデータが必要です。一方、推論能力を身に着けるためには、膨大な問題を見る必要はなく、品質の高い少数の問題をひたすら考えることで思考力が身につくと考えられます。本研究はこの差を極端な設定で分かりやすく提示した研究であると見ることができます。

実際上は、前述のような "rethink," "recheck" などの内省語を身に着けることが鍵と考えられます。このような内省語を使う習慣を身に着けることは汎用的なテクニックであり、多くの推論ベンチマークの正答率に寄与します。このような内省語が有用であることは、一問の問題に取り組み続けていれば自然に気づくことができます。逆に言えば、現状の技術では LLM の事後訓練で LLM に付加できる能力としてはこの程度が限界であり、その程度であればわざわざ何千もの問題集を用意せずとも 1 問だけで十分であるともいえます。

LLM の推論能力を向上させる強化学習の研究は盛んに行われていますが、本研究はこの流れに新しい視点を分かりやすい形で持ち込んだ点で良い研究であると感じています。LLM の推論能力とは何者なのか、どのようにすればうまく獲得させられるのか、まだ分からないことは多いです。本稿が皆さんの LLM の推論能力についての理解の助けになれば幸いです。

著者情報

この記事がためになった・面白かったと思った方は SNS などで感想いただけると嬉しいです。

新着記事やスライドは @joisino_ (Twitter) にて発信しています。ぜひフォローしてくださいね。

佐藤竜馬（さとうりょうま）

京都大学情報学研究科博士課程修了。博士（情報学）。現在、国立情報学研究所助教。著書に『』『』『最適輸送の理論とアルゴリズム』がある。

プロフィールを見る