清華大学と上海AI研究所と画期的な強化学習手法TTRLを開発した。異なる解法で解いてみて、最も多い解答を正解とみなすという単純な手法がながら、各ベンチマークでは正解率が大きく向上したと科技行者が報じた。
AIが資格試験が得意なのはあたりまえ
AIにxxの資格試験問題を解かせてみたら、人間よりも好成績で合格をしたというニュースがたびたび報道される。「AIがいよいよ人間の能力を超え始めた」ということを感じさせるにじゅうぶんなニュースだ。
しかし、AIの背後にある大規模言語モデルの仕組みを考えれば、AIが資格試験で好成績を收めるのは当然のことだ。資格試験に出題される問題の多くはパターン化をしており、問われる知識が異なるだけにすぎない。このような問題を解くのはAIは得意中の得意で、教科書持ち込みで試験を受けているようなものなのだ。
中には、推論が必要だったり、論述をしなければならない問題もあるが、それは全体の得点配分の中では多くはない。そこで半分でも得点が取れれば、全体としては好成績で合格することができる。
AI時代になって、資格試験で問うのは、今のような知識でいいのか、それとも人間の方がまだ優っている思考や発想を問うべきものに変えていくのか、議論しなければならなくなっている。
正解がわからない問題も解くことができる強化学習
ところが、清華大学と上海AI研究所は、画期的な強化学習方法TTRL(Test-Time Reinforcement Learning、テスト時強化学習)を開発した。これは、正解のない/わからない問題を解くことができるというものだ。その成果は「TTRL: Test-Time Reinforcement Learning」(https://arxiv.org/pdf/2504.16084)として公開されている。


試行錯誤で正解を推定する新しい強化学習
一般的な強化学習は、答えがわかっている問題で行われる。AIに問題を解かせて、正解だった場合は報酬を与え、不正解だった場合は罰を与え、AIに正解にたどり着く解法を学習させていく。
ところが、このTTRLでは、正解がわからない/与えられない問題でも試行錯誤で解くことができる。
その原理は意外に単純だ。何度も異なる解法で解かせて、いちばん多く出てきた解答を多数決で正解とみなして強化学習を進めるというものだ。もちろん、多数決で決まった仮の正解が必ずしも真の正解とは限らないが、そういうケースは多くなく、多くの場合、このTTRLが効果を発揮する。
炒飯をつくるときに、卵を先に入れるか、米を先に入れるかでよく議論になるが、プロはさまざまな調理法を試して、できあがった炒飯を自分や他人に食べてもらい得点をつけて、最も美味しいとなった調理法を正解にする。しかし、素人は、「多くの人がやっている調理法」を採用してしまう。ここが、プロと素人の違いになるが、素人のやり方でもそこそこ美味しい炒飯をつくることができる。
TTRLは、正解のわかならい問題の正解に素早くたどり着ける手法であり、これにより鍛えられたAIは、どんどん難易度の高い問題に解答が出せるようになっていく。

正解率は16.7%から43.3%に向上
研究チームは、複数の数学推論ベンチマークテストでこのTTRLを評価した。多くのAIがこのベンチーマークを解いた成績を公開しているため、性能評価ができる。
それによると、アリババが開発したQwen2.5-Math-7BモデルにこのTTRLで学習をさせたところ、学習前は16.7%しか正解できなったのに、学習後は43.3%にまで向上した。3つの数学ベンチマークの平均でも、35.3%から65.0%にまで向上した。TTRLの効果は確実にあることが立証された。
当然ながら、比較対象のAIモデルは解答を提示される強化学習を行い、TTRLを用いた場合は解答は提示されなかった。つまり、TTRLは先生も家庭教師も参考書もない状況で、独学だけで、他を上回ったことになる。
試行錯誤の過程で問題の本質を理解する
なぜ、多数決で仮の正解を決める手法が効果をもたらすのか。このTTRLは、選択問題だけでなく、推論や論述問題にも適用される。このような場合、「最も多い解答」を仮の正解とするのではなく、さまざまな手法で生成された複数の解答の類似度を評価し、得点評価をしていく。この過程で、問題に対する本質的な理解ができるのではないかと、研究チームは推測をしている。
このTTRLが、正解の手法であるかどうかは今のところ議論はあるが、AIが人間を超える大きなステップになることは確実だ。正解のない問題に挑めるAIをつくる重要な手法であることは間違いない。今後、このTTRLが大きく改善されたり、あるいは異なる発想による飛躍が行われ、AIは人間が解けない問題を解けるようになっていく可能性がある。このTTRLはシンギュラリティ(技術的特異点)を超えるトリガーになるかもしれない。
バックナンバーポッドキャスト放送中!
ビデオ版バックナンバーも放送中!