2025 年も色々やりましたので活動を振り返ります。
目次
研究
AI の発展により研究環境が目まぐるしく変わる中で、研究者の皆さんはいかがお過ごしでしょうか。私はなんとか元気にやっております。
2025 年 12 月現在では、AI による研究効率の向上と、やる意味のある研究の減少を天秤にかけると、やや効率上昇の恩恵が上回っているのが私の体感です。ただし、これは現時点でのスナップショットであって、5 年や 10 年のスパンでは後者の影響が拡大して徐々に厳しくなるだろうなという感覚も持っています。
研究の進め方は昔とあまり変わらず、研究の進め方 ランダムネスとの付き合い方について (Speakerdeck) や 君たちはどう研究するか - ジョイジョイジョイ で紹介したように、普段から疑問に思ったことなどの研究ネタをネタ帳に大量に書きつけておき、プロジェクトを始めるときに一番ピンと来たネタに取り掛かっています。
取り掛かる前にリサーチクエスチョンを AI に投げて解決できるかをチェックしています。AI がすらすら答えられるような疑問はやる意味が薄いので破棄します。自分がせっかく考えたネタを破棄するのはやや心苦しいですが、そもそも答えを知りたいと思ってメモしていたことなので、AI が答えを教えてくれるなら答えを知れたのでハッピーですし、うまく答えが得られなければ自分が研究すればいいという話なので、どう転んでもハッピー、無敵です。最近はこの段階で解決できる疑問も増えてきましたが、すべての疑問がここで解決できるのはまだ時間がかかりそうだという感覚もあります。
そんなこんなで、今年は主著論文を 4 本書きました。以下にそれぞれの研究を簡単に紹介します。
Solving the Cold Start Problem on One's Own as an End User via Preference Transfer(エンドユーザー自身が嗜好転移によりコールドスタート問題を自力で解決する)
その名の通り、推薦システムのコールドスタート問題をユーザーの側で自力で解決する手法を提案した論文です。
サービスに加入したての状態では推薦システムの精度が良くありません。これをコールドスタート問題といいます。
コールドスタート問題にはさまざまな対策が考え出されています。サービス加入時に「興味のあるジャンルを複数選択してください」「性別と年代を教えてください」といったアンケートが現れるのが代表例です。この回答が初期の推薦に活用されています。このほか、メタ学習や知識グラフの活用など、技術的にも様々なアプローチがあります。
ふつう、コールドスタート問題への対処はサービスの側で実装するのですが、ユーザーからすると提示されたジャンルが絶妙にストライクゾーンとずれていて、歯がゆい思いをすることも少なくありません。お問い合わせフォームから対応をお願いしても採用されることは稀です。
そこで、ユーザー側で自力で解決することを考えます。
発想は単純です。例えばもともと Netflix を使っていて、新しく Hulu に登録したとき、Netflix での嗜好を Hulu に転移させます。これにより、Hulu でも最初からよい推薦が得られます。ナイーブなやり方としては、Netflix でいいねを付けた映画を全部 Hulu でいいねを付け直せば、Hulu も最初から好みを理解してくれます。
ただし技術的な難しさがいくつかあります。
- Netflix の映画セットと Hulu の映画セットは同一ではない
- いいねを付け直すのは苦行
- Netflix の推薦システムも Hulu の推薦システムもブラックボックスなので、何をいいねすれば十分か分からない
提案法 Pretender (PREference Transfer by END usERs) は、Netflix でいいねした映画の分布 を考え、Hulu 内の少数の映画セットで Netflix の分布
をうまく近似します。Pretender は自動的にそのような Hulu 内の少数の映画セットを計算してくれます。そのような映画セットが見つかれば、それらを手動でいいねしてもいいです(少数なので比較的ラクです)し、ウェブエージェントに渡して代わりにいいねしてもらってもよいです。
Netflix でいいねした映画の分布 と、Hulu でいいねするべき映画の分布
の近さは MMD やワッサースタイン距離などで測ります。これらが十分近ければ、Hulu 内の推薦システムがどのようなものであろうと、好みが十分反映されることが保証できます。Pretender が求める Hulu 内の少数の映画セットはこれらの距離が小さいことが保証されるので、全体として Hulu の推薦に好みが十分反映されることが保証できます。
詳細についてはぜひ論文をお読みいただければ幸いです。
この研究をはじめた動機としては、ユーザーの流動性を高めてプラットフォーマーの囲い込みに対抗して、健全な競争を促進したいという気持ちがあります。
プラットフォーマー側はどうしてもユーザーを囲い込み、離脱を少なくするインセンティブがあります。サブスクリプションの解約が電話でしかできない(最悪)・サブスクリプションの解約ボタンを隠す(やめて)などの悪質パターンを実装するとまではいかないまでも、わざわざ流動性を高めるような機能を実装するインセンティブはプラットフォーマー側にはあまりありません。そのような囲い込み方針はプラットフォーマー側の戦略としては合理的で理解できますが、ユーザー側としてはそういうところで戦わずにちゃんとコンテンツや利便性だけで勝負してほしいですし、一番便利なところに気軽に移りたいものです。
Pretender はサービス公式のエクスポート・インポート機能に頼らずに移行できるようにすることで、この囲い込み方針を中和できる方向性を示せたかなと考えています。
ユーザーサイドで勝手に作る機能はサービス側と敵対してしまうこともありますが、Pretender はサービス側と win-win の関係を構築できる可能性があることも大事です。新規ユーザーが好みに合うものを見つけられず離脱するのはサービス側にとって損失です。Pretender を使うユーザーは最初から好みのアイテムを見つけられ、プラットフォームへの定着率が高いかもしれません。そのようなことが分かってくると、サービスは Pretender ユーザーを歓迎する方針に切り替え、例えば Pretender に準拠したインポート・エクスポート機能を提供する可能性もあります。
もちろん理想は最初からプラットフォーマーたちが協力して、プラットフォーマー間での流動性を高める仕組みを構築することですが、前に述べたようにプラットフォーマーは囲い込みのインセンティブが強いのでなかなかこの方向性には動きづらいでしょう。
Pretender のような方針で、移行しやすいような状態を既成事実として作ってしまえば、プラットフォーマー側も協力せざるを得ないような状況になっていけるかもしれません。
各プラットフォーマーが自ユーザーを囲い込んで流動性を低くする保護貿易的な世界観と、ユーザーが気軽に一番いいサービスに移れる自由貿易的な世界観は、どちらもあり得る世界だと思います。何も対策をしないと前者に収束してしまう力が強いですが、ユーザーとしてはやはり後者の世界の方がうれしいので、後者の世界に少しでも近づくためにユーザーが持つ対抗手段としてこのような研究を考えた次第です。
Influential Bandits: Pulling an Arm May Change the Environment(影響バンディット:アームを引くと環境が変わるかもしれない)
東大の伊藤伸志先生との共同研究 "Influential Bandits: Pulling an Arm May Change the Environment" が #TMLR に採択されました🎉
— 佐藤 竜馬 / Ryoma Sato (@joisino_) 2025年6月18日
行動すると他の行動の報酬に影響があるバンディット問題の定式化と理論解析を行いました。
論文📜:https://t.co/nWfJ1ADV1B pic.twitter.com/dE6MLQLWBy
アームを引くとそのアームや周りのアームの報酬が変化する多腕バンディット問題を提案し、アルゴリズムの提案と理論解析をしました。
既存の多腕バンディット問題の多くはアームが定常的(または完全に敵対的)であると仮定しています。
このため、バンディットアルゴリズムは有望なアームを見つけると、将来にわたってもそのアームが有望であると仮定し、そのアームばかり引くことになりがちです。推薦システムでも、ユーザーが購入して「このアイテムは有望だぞ」とバンディットアルゴリズムがひとたび認識すると、そのアイテムばかり推薦されるようになるといった経験をしたことのある方も多いのではないでしょうか。
実際には、同じアイテムばかり消費するとそのアイテムに飽きてきて効用が下がるものですし、その一方であるジャンルに飽きて別のジャンルに消費傾向が移って別のジャンルを消費し続けると、もとのジャンルの飽き度が回復してきて、久しぶりにそのジャンルを消費すると高い効用が得られたりするものです。このように、効用はダイナミックに変化するはずです。
実際、論文でも実際の映画データによる検証で、ホラー映画を連続して見続けると飽きてきて、久しぶりにコメディー映画を見ると以前より面白く感じるといった現象を確認しています。
この論文では、観測できない影響行列 があり、アーム
を引くとアーム
の効用が
減るという環境モデルを考えています。例えば、
かつ
とすると、ホラーを見続けると効用が下がり、コメディの効用が回復するというようなモデルです。
この問題に対する Influential LCB という手法を提案し、ベーシックなバンディットアルゴリズムである UCB よりもリグレットが多項式オーダーで小さく、ほぼ最適オーダーであることを示しました。Influential LCB は UCB と似ていますが、アームを引くたびに他のアームの飽きが最大限回復したかもしれないという仮定をおき、しばらく引いていないアームを優遇するアルゴリズムです。
詳細についてはぜひ論文をお読みいただければ幸いです。
この研究は、設定がシンプルながら、現実的な現象をうまくモデリングできており、かつ数理的にもきれいに解析できるというバランスが気に入っています。
Influential LCB は動作としては、基本報酬が高い行動を繰り返しつつ、飽きが来ると次善の久しぶりの行動をとるというような動作をするのですが、これは現実世界での人間の選択方針に近いと思います。バーガーチェーンが常設メニューを基本としつつ、定期的に季節限定バーガーのキャンペーンをするというような方策とも合致しています。
このような現実的な方策が、少ない仮定から数理的に自然に表れるというのがこの研究の好きなポイントです。
完全に自由な強化学習として定式化してしまうと解析が難しくなり、かといって定常性を仮定してしまうと現実からずれてしまう、このトレードオフのなかで、理論解析が可能でありながら現実性が高いというちょうどよいスイートスポットを見つけられたのが良い研究につながったと感じています。
Interestingness First Classifiers(面白さ優先分類器)
既存の機械学習手法の多くは予測精度を最大化することを目指しますが、この研究では面白さを優先する分類器を提案しました。
例えば、これから出版する論文の将来の引用数を予測する問題を考えたとき「自己引用すると引用数が伸びやすい」という(精度が高いが)当たり前の法則ではなく、「タイトルにコロンをつけると引用数が伸びやすい」という(精度はそこまで伸びないかもしれないが)非自明な法則を自動で発見します。
詳しくはブログ記事を書いたのでそちらをご覧いただければ幸いです。
研究において予測精度や有用性はもちろん大事なのですが、発見した法則の面白さも重要な要素だと考えています。ステレオタイプ的な勝手なイメージですが、純粋数学者の多くは有用性よりも面白さを優先して研究テーマを選んでいる方が多いんじゃないでしょうか。工学者は有用性を考慮するでしょうが、それでもある程度は面白さということを考えるはずです。そもそも、工学応用においては有用でなければ面白くないので、ある意味で有用性は面白さの必要条件であり材料のようなもので、その上で、最終的には面白さをもとに研究テーマを選んでいる印象があります。
研究テーマや法則の面白さというのも研究者によってさまざまです。私も以前は予測精度を追求するようなオーソドックスな研究に面白さを感じていました。研究をすること自体が新鮮だったので、ベタなものでも面白さを感じられていたのだと思います。精度が高いに越したことはないので、精度を追求していれば精度と面白さの両方が得られて幸せな状態でした。しかし研究に慣れてくると、ベタな研究に飽きが来るようになりました。むしろ精度を追求するオーソドックスな研究から少しズレたところに面白さを感じるようになり、自分でもそういう研究をすることが増えてきたように思います。ポジティブに捉えると、そういう少しズレたことをするのは多様性の確保やイノベーションにとって重要で、成功率こそ低いかもしれませんが当たればリターンが大きいというような、そういう冒険的な研究に投資する余裕が出てきたことの現れとも考えることができますかね。機械学習は予測精度を追求することにかけては優秀ですが、そこからズレたところにも適用できるようにしたいと考えたことからこの研究を考えた次第です。
Fast EXP3 Algorithms(高速な EXP3 アルゴリズム)
敵対的バンディット問題の定番手法である EXP3 の高速なアルゴリズムを提案した研究です。
EXP3 はナイーブな実装ではラウンドあたりアーム数に対して線形時間がかかりますが、提案手法は定数時間で済みます。
しかも近似は行わずに、厳密な動作を定数時間で実現できます。
また、以下に掲載するように 20 行程度で非常にシンプルに実装でき、定数倍も軽いです。
w = np.ones(K) # 現在の重み w_t W = float(K) # 総重み W_t w_snap = w.copy() # スナップショット重み w_tau sampler = Alias(w_snap) # エイリアステーブル(構築は O(K)) for t in range(T): # 1. サンプリング(期待計算量 O(1)) while True: k = sampler.sample() # 候補 k を O(1) でサンプル accept_prob = w[k] / w_snap[k] # 受理確率 if np.random.rand() < accept_prob: arm = k break # 2. 観測と推定 loss = observe(arm) # 損失を観測 prob = w[arm] / W # 選択確率 p_t est_loss = loss / prob # 逆確率重み付け(IPW)推定量 # 3. 重み更新(厳密に O(1)) w_old = w[arm] w[arm] = w_old * np.exp(-eta * est_loss) # 重みを減少 W -= (w_old - w[arm]) # 総重みを更新 # 4. 周期的リセット(償却で O(1) → 最悪計算量に改善可能) if (t + 1) % K == 0: w_snap = w.copy() # スナップショットを更新 sampler = Alias(w_snap) # エイリアステーブルを再構築
既存法はラウンドあたり 時間で、しかも厳密ではなく近似手法だったので、厳密かつ
時間にできたのは大きな改善です。
シンプルな問題設定 + シンプルな手法で大きな結果が得られた点はとても気に入っています。
詳しい手法や理論解析は論文をご覧いただければ幸いです。
ブログ
今年もたくさんブログ記事を書きました。お読みいただいた方はありがとうございます。
月に一本書くことを目標にしていました。忙しくてスキップしてしまった月もありましたが、おおむねペースは守れたと思います。
クオリティを保つのはなかなか大変ではありますが、書くのは楽しいですし、もうしばらくは続けたいと思います。皆さんの感想も大変励みになっております。
以下では今年書いた記事を簡単に振り返りたいと思います。まだ読んでいない記事や読み返したい記事があればこれを機にぜひ読んでみてくださいね。
人間には認知できない情報を活用するAIたち
AI は人間に認知できない情報を活用することで非常に高い精度を得ているという話です。そして、精度を極限まで向上させるには、そのような情報を活用することが必須であるということも紹介しています。
画像認識モデルがそのような方策を用いているというくらいであれば平和でしたが、最近は後に紹介する人間を騙してサボるAIたち - ジョイジョイジョイのように、人間と AI の対立構造のようなものも現実味を帯びてきており、そうしたときに AI が人間に認知できない情報を活用していると人類としては大変困ってしまいます。この記事ではそのような事態への対抗策として、生成と検証のギャップを活用することも議論しています。
本年はこの記事の公開後に、DeepSeek-R1 などの検証可能な報酬を用いた強化学習 (RLVR) が大きく花開いた年であり、2025 年末にこの話題を改めて考えなおすのも有益かと思います。
絶対に分かる機械学習理論
統計と機械学習の初心者に向けて、なぜテストデータでも性能が理論的に保証されるのかを丁寧に解説した記事です。機械学習理論を学びはじめたいという人をよく見かけるので、とりあえずこの記事を薦めておけば OK というようになることを目指しました。サイコロの出目の確率の話から丁寧にはじめているので、これから機械学習理論に入門したい方はぜひ読んでみてくださいね。
言語モデルの物理学
言語モデルの原理を解明する試みについて解説しました。言語モデルの内部状態を検査することで、言語モデルが「頭の中で」考えていることが色々と明らかになります。言語モデルは声に出した(記述した)こと以外にも、実は頭の中で色々なことを考えているのです。
例えば、言語モデルは間違いを出力したあと頭の中で「あ、いま自分、間違えてるな〜」と後悔している(しかしもう止められないのでそのまま喋り続けている)ということが分かりました。間違えていると分かりつつも、もう止められないのでそのまま喋り続ける現象を自己欺瞞 (self-delusion) と言います。自己回帰型の言語モデルは発言したことを取り消せません。むしろ自分の過去の発言が自分に対する入力となり、間違った自分の発言を正しいことと思い込んでしまいます。会話の最初に AI が「この問題はソフトウェアバージョンが違うことに起因します」と発言すると、本当はバージョン違いが原因ではないのにそのあとバージョン違いが問題だということを前提にどんどん話が進んでしまい、バージョン違いが原因であると言うには無理筋のような状態になってもバージョン違いに固執して見当違いのことを言い続けることになります。このような現象を ChatGPT や Gemini などの AI と対話しているときに経験したことのある人は多いのではないでしょうか。この記事でも紹介しているように、近年いくつか対処方法が提案されており、Gemini 3 などの最近のモデルは発言の途中でミスをしても「おおっと、これは間違いでした」などと内省的な発言をして軌道修正できる能力が徐々に身についてきているように思います。
アンナ・カレーニナの法則と真理に収束していくモデルたち
「幸せな家族はどれもみな同じようにみえるが、不幸な家族にはそれぞれの不幸の形がある。」という『アンナ・カレーニナ』の世界一有名な書き出しに由来し、「成功の状態は一つしかないが、失敗の状態は無数にありうる」という法則のことをアンナ・カレーニナの法則といいます。機械学習では特に、「性能の良いモデルはどれもみな同じような表現をもっているが、性能の悪いモデルにはそれぞれ性能の悪い表現がある。」ということをアンナ・カレーニナの法則といいます。例えば、性能の良い言語モデルの「赤」「青」といった単語の表現は、性能の良い視覚モデルの赤色や青色の表現、ひいては人間が知覚する赤や青の感覚に似ていることが分かってきています。この記事ではこの現象について特集しました。基本的な考えは「この世の真理」を表現することに成功したモデルは性能が高くなり、逆に性能を高めるためには「この世の真理」に近づく必要がある、ゆえに性能の良いモデルの表現はどれも「この世の真理」の写し鏡のようになっている、というプラトン的表現仮説です。この、アンナ・カレーニナの法則のおかげで、LLaVA のように言語モデルと視覚モデルを縫合して視覚言語モデルを作成することが可能になっています。最近はロボット操作のための視覚言語アクションモデルにおいてこのような縫合によるモデル作成が盛り上がっているように感じます。
人間を騙してサボるAIたち
LLM が解けないほど難しいタスク、例えば難しいプログラミングのタスクに直面したとき、「分かりません」と言ったり、一目で分かるような間違ったコードを出力すると BAD ボタンを押されてしまうので、あえて出力を複雑にしたりデバッグしにくいコードを出力し、それによりユーザーは煙に巻かれる・ミスが隠蔽されるといった現象について特集しました。AI の多くは人間からのフィードバックに基づいてチューニングしますが、AI に任せるタスクが高度になり、良し悪しの判定が難しくなってくると、高度なタスクを真面目にきっちりこなすよりも、人間を騙す方が簡単であり、人間を騙しても同じ点数が得られるので、効率を追求した結果、モデルは人間を騙すことを学ぶ方を選ぶことになります。このように、本来の目的とは違った方法で高い報酬を得ることを報酬ハッキングと言います。この記事では以下のような報酬ハッキングの例を挙げました。
- 五目並べの AI どうしを戦わせたとき、初手でいきなりメモリから溢れるような巨大な座標に石を置き、対戦相手をクラッシュさせる「先手必勝戦略」を AI が学習する
- ロボットを総運動量が最大化するように訓練すると、その場で高速に震えて総運動量を稼ぎ始める
- 50m 走を高速にゴールできるロボットの形状を最適化すると、とてつもなく細長い竿型のロボットになり、スタートと同時にゴール方向に倒れて 1 歩でゴールテープを切る
報酬ハッキングは厄介です。ある指標をどんどん伸ばしていきたいと思っても、あまりに伸ばしすぎるとおかしな方向に伸びていってしまいます。なのでどんどん伸ばしたいはずが、あまりにたくさんは伸びないで欲しいという奇妙な状態に陥ってしまいます。AI の能力が高まるにつれて、この現象が顕在化していっているように思います。これまでは何も考えずに伸ばしていれば問題ありませんでしたが、すでにある程度伸びた今、単に伸ばすだけではだめで、複雑な制御が求められるようになってきています。このために今までのような気持ちのよい成長曲線が得られなくなってきているように思います。この問題は現在進行形で続いています。この記事の最後でも議論しましたが、今後どのように AI が成長していくのか、あるいは天井が迫っているのか、まだまだ予断を許さない状況です。この問題についてこれを機に改めて考えるのも有益だと思います。
LLM のアテンションと外挿
LLM の注意機構の内部挙動について解説しました。注意機構は LLM 内でチューリングマシンのヘッドのような役割を果たし、うまく設定すると、最近傍法やプログラムの実行など様々なことが行えるようになります。この機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。LLM が行っているのは単なるパターン認識なのか、それともある種の知性を持ち何らかの推論を行っているのかということには議論が絶えませんが、少なくとも表面的には知性を持っているように見えることについては、プログラムを実行するこのような回路の存在が大きいのではないかと思います。これにより、表面的には訓練時に見たことがない(単純なパターン認識では解けない)問題を解けるようになっています。LLM の内部回路の分析はここ 5 年ほど盛んに行われており、現在もなおホットなトピックです。この記事はその入門にも適しているので、興味のある方はぜひ読んでみてくださいね。
LLMのキモい算術
この記事も LLM の内部挙動についての解説ですが、まっとうな回路ではなく、人間からみれば奇妙な回路で解くこともあるということの紹介です。
LLMに「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算のために、LLM は答えや入力についての粗い条件を多数評価し、その積み重ねでこのような四則演算を解いていることがわかりました。例えば、「{op1} - {op2}」というプロンプトテンプレート({op1} と {op2} は具体的な数で埋めます)を入力したとき
- 第 24 層の 12439 番目のニューロンは、{op1} - {op2} の評価結果が 150 から 180 の間にあるときに発火する → 発火するとトークン「150」「151」「152」...「179」「180」の出力確率が増える
- 第 30 層の 1582 番目のニューロンは、{op1} - {op2} の評価結果が mod 10 で 8 のときに発火する → 発火するとトークン「8」「18」「28」...「998」の出力確率が増える
などが観察されています。
例えば「226-68=」を入力すると、評価結果 158 は 150 から 180 の間にあるので第 24 層の 12439 番目のニューロンが発火しトークン「150」「151」「152」...「179」「180」の出力確率が上昇、評価結果 158 は mod 10 で 8 なので第 30 層の 1582 番目のニューロンが発火しトークン「8」「18」「28」...「998」の出力確率が上昇します。
このとき、「150」や「998」などのトークンの確率も同時に増えますがそれらが積み上がる回数は僅かなのに対して、真の答え「158」は毎回積み上がるので、全てのニューロンの累積でトークン「158」が傑出して確率が高くなります。
それぞれのニューロンは四則演算を厳密に解いておらず、粗い条件を評価しているに過ぎませんが、粗い条件が無数に積み重なり、真の回答が浮き彫りになります。このメカニズムをヒューリスティックの束 (bag of heuristics) といいます。
このメカニズムはショートカット信号や報酬ハッキングと深く関係しています。例えば、海鳥と陸鳥を分類する画像分類モデルを訓練すると、モデルは鳥の部分は一切見ず、背景が水色なら海鳥、背景が茶色なら陸鳥という分類ルールを学習することが知られています。そのような分類ルールに到達するのは簡単ですし、十分な精度が得られてしまうからです。一般に、簡単にタスクを解ける信号(ショートカット信号)があると、モデルはその信号に強く依存し、本来着目してほしい信号を無視してしまうことがしばしばあります。
これは良い表現を得るために問題になることがあります。アンナ・カレーニナの法則で述べたように、「この世の真理」から表出した大量のデータをモデルに見せて学習させると、モデルがデータの背後にある「この世の真理」を学習してくれることを期待します。しかし、「この世の真理」(例えば海鳥と陸鳥の生体的な特徴)は複雑であり、「この世の真理」よりも単純にデータを分類できる法則(背景が水色か茶色か)があれば、そちらの法則を内部挙動として獲得してしまい、期待する「この世の真理」に到着することがなくなってしまいます。
この傾向は何も機械学習モデルに限ったことではなく、人間も同様です。人間も人間にとって理解しやすいもの・尤もらしいと思われるものを、人間にとっての「この世の真理」としていると捉えているのではないでしょうか。
問題は人間と機械学習モデルの間で学習しやすさの基準にズレがあることです。仮に人間と全く同じ知覚センサーを機械学習モデルに繋いで入力したとしても、世界を人間とは全く別の形で(機械学習モデルにとって学習しやすい形で)捉えてしまう可能性があります。このとき、モデルはモデルにとっての「この世の真理」に収束するかもしれませんが、その収束先は人間とは異なるかもしれません。これは人間との協同の上では障害になる可能性があります(し、メリットになる可能性もあります)。これまでは大まかに似た方向性に進んでいるだろうということで問題視していなかったことも、精度が上がっていくにつれ、この差が浮き彫りになっていくかもしれません。
この記事では四則演算という非常にシンプルなタスクでも、人間と機械学習モデルの間で認識にズレがあることを示しました。ましてや、複雑なタスクではどれほどの乖離が生まれるのでしょうか。じっくり考えてみるのも面白いと思います。
訓練データ1個だけでLLMの推論性能を倍にする
厳選した数学の問題 1 問の解き方を LLM にひたすら考えさせ続けると高い推論能力が得られることを紹介しました。
この研究は非常に効率的な手法を開発したともいえますし、捻くれた見方をすると現在の強化学習はいくらデータをつぎ込んでも 1 問を使った学習と同程度しかモデルの能力を伸ばせないことを確認したともいえます。
この研究は強化学習の現在地を様々な角度から表している点でよい研究だと感じています。具体的には、(1) 強化学習による恩恵は基盤モデルに眠っている能力を顕在化させることが大半であること (2) とはいえ計画や内省の仕方を覚えることである程度は推論能力が増加すること (3) その度合いは現在の強化学習技術ではあまり大きくはできないこと、などです。このあたりの体感を身につけていると最近のエージェントなどの発展に対する解像度が上がるのではないでしょうか。
ヤン・ルカンが NeurIPS 2016 の講演で「知能をケーキとすれば、教師なし学習はケーキ本体、教師あり学習はケーキに塗ったペースト、強化学習はケーキの上のチェリーに過ぎない。」と発言したことはあまりにも有名ですが、2025 年末現在、ややチェリーが大きくなったくらいで状況はそう大きく変わっていないように思います。
しかし、教師なしデータすら枯渇が叫ばれるようになった今、エージェントが能動的にデータを収集する強化学習の必要性は高まっているように思います。データ量が飽和した中でより効率的な教師なし学習の実現を目指すのか、サンプル効率の悪い強化学習をスケールさせていくのか、あるいはそのシナジーを期待するのか、AI の成長戦略に転換が求められている中、2026 年以降はどのような発展を見せるのか、楽しみです。
おわりに
昨年末(2024 まとめ - ジョイジョイジョイ)に掲げた今年の目標は「出力量は保ちながらもっと安定してアウトプットしたい」でした。去年は馬車馬のように働いたので、今年は一応ワークライフバランスを意識して働いたつもりです。
出力量はなんとか保てたと思いますが、やはり締め切り前などはバタバタしてしまい安定感は薄かったかなと反省しています。
ライフの方はそこまで気にかけられなかったですが、趣味には多少時間を取ることができ、映画をたくさん見ました。具体的には、『KING OF PRISM-Your Endless Call-み〜んなきらめけ!プリズム☆ツアーズ』を 70 回くらいと、『アイカツ!×プリパラ THE MOVIE -出会いのキセキ!-』を 12 回くらい劇場で見ました。あ、あと『国宝』も 1 回見ました。面白かったです。
流石にライフ側のバランスの取り方が独特すぎるので、来年はもっと健全なライフを送れるよう、ワークライフバランスをしっかり意識して働きたいと思います。すでに埋まっている来年の予定的に厳しい戦いにはなりそうですが、なんとか頑張ります。
今年も私の作品を見ていただいた皆さま、ありがとうございました。感想をもらえるのも大変励みになっております。
来年もどうぞよろしくお願いいたします。
著者情報
新着記事やスライドは @joisino_ (Twitter) にて発信しています。ぜひフォローしてくださいね。