https://saize-lw.hatenablog.com/entry/2025/06/22/200054

深層学習生成AIの基礎

作者:岡留剛
共立出版

中野中央図書館（現在大規模工事中）で見かけて借りたらなかなか良かった。
ただ見た目が地味すぎるせいかトピックがホットな割にはネットでの存在感が一切なく、Amazonレビューは0だしTwitterでも全く言及されていない謎の本でもある。
せっかくなので記事を書くことにしたが、別に仕事で使うわけでもない人による小説と同じノリの感想文だし解説記事ではない。ちゃんと技術を知りたい人は自分で入手して自分で読んでほしい。

CNNで卒論を書いてから8年（隙自語）

個人的には、ニューラルネットの認識を平成から令和にアップデートするのに非常に手頃な本だった。
思えば俺がCNNで卒論を書いたのはもう8年ほど前の話だ。機械学習分野はいまやあらゆる学術領域の中で最も激しく発展しているものの一つと言っても過言ではなく、この僅か一桁年の間にも色々なことがあった。LSTMはオワコンになってトランスフォーマーに代わられたし、GANもオワコンになって拡散モデルに代わられた。

補足584：オライリーの『生成Deep Learning』シリーズは、2020年に出版された第1版では拡散モデルには一切言及せずGANを最新の画像生成モデルとして扱っていたため、分野に詳しくない初心者が「今流行りの生成AIを勉強してみよう」などと意気込んで買うと現行ではない技術を学んでしまうというかなりのトラップになってしまっていた。これはオライリーが悪いわけではなく、Stable Diffusionが発表されたのは2022年であるため、2020年の出版当時はまだあのGANが最新の画像生成モデルだったのだ。なお、その後2024年に出版された第2版では内容が大幅にアップデートされ、無事に拡散モデルが記載されると共に発展模様を追う年表も追加された。

個人的な感慨も込みでバイアスドな私見を書けば、深層学習の花形がCNNから生成モデルに移行したことには隔世の感を禁じ得ない。
かつては犬と猫の写真を見分けるだけで皆がスゲースゲーと喜んでいた時代があり、SVMだのクラスタリングだのと比べればビジュアル的に成果がわかりやすいこともあってCNNは機械学習へのゲートウェイ・アーキテクチャとして機能していた（という説もある）。しかしあれから時が流れ、生成AIが全てを定義するほど世界に根を張り始めている今にして思えば、少なくとも典型的なCNNなど相対的には塵のような存在感しかなかったと言わざるを得ない。
この本でもCNNは全く扱われておらず、まえがきで他の本への参照が飛ばされるに留まっている。この本のタイトルはあくまでも「生成AIの基礎」なのでCNNはお呼びではないというだけの話ではあるにせよ、深層学習を語るにあたってそのような本の構成になること自体が象徴的な意味を持って俺の前に現れている。

アップデートには最適かもしれない

というわけで、令和の覇権を握る生成モデルの中でも特にインパクトの大きい言語（トランスフォーマー）と画像（拡散モデル）の二つについてコンパクトにまとまっているのがこの本だ。
全体としてはざっくり
　①ニューラルネットワーク概要
　②生成モデルの準備
　③生成モデルの本体
　④その他関連トピックス
という4セクションで構成され、生成モデルに到達するまでの道筋が一応全て舗装されている。

ただ最先端を深く掘り下げる本というよりは、学術レベルの最低ラインをさっと概観できる本といった方が正確だ。
まえがきの一行目から「本書は、大学学部の2年生の後期から3年生むけの深層学習の教科書である」と明瞭に定義されており、「今大学にいる令和の情報学徒はこのくらいのことを共通言語にしているんだろうな～」というベースを共有できる意義が大きい。

そこまで厚い本でもないので説明は駆け足になることも多く、厳密な論証というよりは流れを追うことを重視している（実験精神が強い機械学習において何を以て厳密な論証と呼べるのかは自明ではないが）。証明が重い割に局所的な用途しかない補題などは章末に切り飛ばしてくれていたりするのはありがたかった。
この本一冊での理解は厳しいのではと思う箇所も多いが、Qiitaとかを適当に読めばフォローできる範囲だし、生成モデル以前のニューラルネットについては既に知っている前提のアップデート用途ではあまり問題なかった。

注意機構を考えたやつかなり頭いい

冒頭の①ニューラルネットワーク概要はかなり早足だ。
深層学習という分野が成熟して全体で学ぶべき情報の量が多くなっているため、基礎に係う時間は相対的に少なくなっているのかもしれない。誤差逆伝播法を含めた基本的な解説はわずか20ページで終了し、最適化アルゴリズム・各種正規化・残差接続といった標準的なテクニックを解説しても50ページくらいしか消費しない。

続いて②生成モデルの準備として要素技術のRNN・注意機構・強化学習の三点が解説される。
これらは単独の技術としても成立しているが、あくまでも生成モデルで使用するエッセンスを解説する文脈だ。俺はRNNと強化学習はそれなりに既知だったが、注意機構にはそれほど詳しくなかったのでここで勉強させて頂いた。

注意機構はいまや汎用モジュールの一つとして色々なネットワークに現れるが、表式を見ればなるほど確かに既存のモジュールにはなかった発想が詰まっていて面白い。
ソースの要素を複数まとめて扱おうとすること自体は全結合層におけるただの線形結合などと同じだが、注意機構では係数に相当する関連ベクトルが内積になっていることがポイントだ（厳密に言えば関連ベクトルを求める演算は内積に限らないが、要するに内積のような関係性を表現する演算）。これによって、チャンク情報をただ整理して一方向に進めるだけの演算とは異なり、チャンク情報と特定のターゲットとの双方向的な関係を表現できるようになっている。
また、注意概念自体はパラメタを用いなくても利用できるが（ターゲットとソースの内積をそのまま取って関連ベクトルにすればよい）、あえて引数にパラメタを付加することで適当な変形を学習できるようになる。それこそがソースとターゲットの関係を表現する文脈となり、とりわけ複数のパラメタ組を並列で付与するマルチヘッド注意によって更なる柔軟性が確保されている。

言語も画像もやったらできましたみたいな

以上の準備を終えるといよいよ③生成モデルの本体に入ってくる。言語生成と画像生成という現代社会を支配するAIについて解説する、この本の本丸はここだ。

言語

言語モデルはトランスフォーマーをベースにした技術であり、やはり注意機構が最大のコアになっているようだ。最新のChatGPTにしても、トランスフォーマーで構築したネットワークの上にインストラクションチューニングや強化学習のようないかにも妥当そうな学習を追加しただけだ。
トランスフォーマーはRNNのように逐次前進的に予測するのではなく、チャンクで関係を見るからより妥当な言語予測ができるのだ、という説明自体は定性的にはわからないではない。しかし何故それだけのことで明らかに言語予測を超えているように見える知性的な振る舞いをするのかという違和感については全く解決されておらず、本文中にも「しかし、なぜ、言語生成モデルが、推論をおこない『人のようにふるまう』ことができるのかという素朴な疑問は、残念ながら払拭されていない（p153）」と明記されている。

ただ、これは本の内容ではなくサイゼミサーバーで教えてもらったことだが、このあたりの内部的な挙動に関してもそろそろちゃんとした研究が始動しつつあるらしい。
LLMの中身もいつまでもブラックボックスのままだったりアドホック知見で済ませたりしていてはいけないよねということで、きちんと内部パラメタで何がどう起きているのかを探る「言語モデルの物理学 (Physics of Language Models)」という熱い分野があるようだ。
joisino.hatenablog.com
speakerdeck.com
数年経つころには和書の一冊くらいは出ていそうなので、その頃にまた思い出して読もうと思う。

画像

画像を生成する拡散モデルについても、直感的には嘘っぽさは拭えない。「人工的にノイズを付加してデノイジングを学習する」ということくらいは知っていたが、まさか本当にそれだけだとは思わなかった。
もう少しフォーマルに言うと、元画像から潜在変数の分布を完全な決め打ちで生成し、それを使ってノイズ分布を学習するなどという自作自演構成で問題なく稼働していることは俄かには信じ難い（でもGANとかもスラップスティック・コメディみたいな構成だったな……）。
とりわけ順拡散過程を支配する多次元ガウシアンの分散共分散行列が単位行列の定数倍なのは悪い冗談としか思われなかった。それが主張していることはすなわち、ピクセル間の関係は特に考慮しておらず、それぞれのピクセルが勝手にぼやけているだけということだ。CNNがプーリングと畳み込みであれだけ熱心に隣接ピクセルを処理していたことを思い出すと、同じ画像処理仲間のように見えて根底にある思想からして全く異なっているのは衝撃だ。
ちなみにU-Netを用いた実現あたりから説明がだいぶ適当になってくるが、その辺はこのQiita記事の解説がかなり良くて助かった。
qiita.com

いずれにしても、言語生成も画像生成も数式を一定追ったところで「そんなんでできるわけなくない？」という疑義は深まるばかりだが、それでも出来てしまうあたりが機械学習という分野の懐の深さでもある。

アプデポイント3選

「ニューラルネットの知識を平成から令和にアップデートする」という当初の目的に鑑みて、今回学んだことは主に以下の三点がある。

1. 確率分布が主役に躍り出る

一つは、ニューラルネットが行うタスクが古典的な識別タスクから生成タスクへとシフトしたことに伴ってのものだ。

その変化自体は冒頭から散々噛み締めているが、それに付随して論点が全く変化していると感じることが多くあった。
例えば、回帰や分類においてあれほど重要だった評価手法というトピックはこの本ではほぼ全く触れられていない（ある意味では学習過程とは常に評価の繰り返しであるにせよ、クロスバリデーションのようにフォーマルかつ明示的な評価は扱わないということだ）。もちろん生成モデルにおいてもベンチマーク自体は存在しているが、モデルは完全に数理的な妥当性のみで評価されるわけでもないので、最低限の説明からは省いてしまっても問題ないという温度感なのだろう。

令和のモデル出力に要求されるのは、所与の数値やカテゴリへとフィットさせる几帳面さではなく、むしろ型に嵌まらない創造的な多様性なのかもしれない。
生成とはクリエイティブであり、クリエイティブの本質的な要件の一つは多様であることだ。人間だろうがAIだろうが、「猫を描いてほしい」と言われて1ドットも異ならない同一の猫しか提出しない相手はクリエイティブとは見做されない。

伴って、令和のニューラルネット出力では「確率分布」が主役に躍り出てきているように感じた。
平成モデルが行う古典的な識別タスクにおいては、確率出力とは「AIの自信度」を表す参考値くらいの意味しかなかった。もっと具体的に言えば、現実的にはsoftmax出力を一応得たあとはその中から最大値を取る結果だけをピックするargmax関数に送ってしまえば十分なことも多いわけで、単射性を持たないargmax関数の内部でさっくり切り捨てられた他の雑多な確率はそれきり忘れて問題なかった。
しかし生成モデルにおいては、適当な方法で抽出した一つの実現値というよりは、様々な確率を内包した分布の全体形状こそが本質的な役割を演じてくる。さっきも書いたようにクリエイティビティは揺らぎに宿るのであり、多様な出力を担保するためには確率分布を陽に扱うことが必要になる。
それは言語モデルにおいては確率分布を受け取るビームサーチのような分岐アルゴリズムであり、拡散モデルにおいては拡散過程の終端（＝逆拡散過程の始端）にあるものが無地のベタ塗りではなくガウシアンから確率的に生成されるノイズであるしその後の発展も確率過程が支配することが対応する。
表現形式としてはスカラーからベクトルへ、そして変数の所在は顕在から潜在へ。本質的に扱いたいレイヤーが一つ上がっているのが生成モデルの大きな特徴であるように感じた。

2. 学習が職人芸に逆戻りしてない？

二つは、学習がどんどん汚くなっていること。もっと正確に言えば、ネットワークの複雑化に伴って現実的にちゃんと動作する学習アルゴリズムを発見するための試行錯誤が大変なものになっているということ。

元々機械学習は線形代数の言葉で理屈を捏ねる割にはやってみなければわからない謎の分野であり、上手く動くかは神のみぞ知るから人が出来るのは祈りしかないみたいな節は確かにあった。ハイパラチューニングだのデータオーギュメンテーションだのモデルアンサンブルだのとかいう黒魔術が交錯する呪術的な世界観は、テクノロジーの高度化に伴って浄化されるどころかより混迷を深めているように思われる。

特に拡散モデルの学習は極めて汚く、正直に白状すると俺は途中で「これを読んで理解する意味はさすがにないだろ」と思って投げた。最初から直に尤度を扱うことを放棄して変分上界に照準を定めるスタートからしてやや不穏だが、案の定それも上手くいかずに再パラメタ化を繰り返すことになる。
行き詰まるたびに横道を探してなんとかして動くものを作り上げる営みを数学的に汚いと見るか工学的に美しいと見るかは個々人の感性によるだろうが、少なくともお魚さんが「ゼロから作るDeep Learning」などと生温いことを皆に言って回れる時代は終わったようだ、というのは一つの学びであった。

3. あれもこれもニューラルネット

三つは、ニューラルネットの使い道がどんどん広がっていること。

とはいえ、ここで言う「広がっている」のニュアンスは若干難しい。
ニューラルネットが少なくとも漸近的にはあらゆる関数形を表現できることは以前から周知の事実であり、数値に落とし込める物事の関係を表現するタスクでさえあれば、（学習さえなんとかできれば！）理論上は何でもできることも誰でも知っているからだ。
とはいえ、かつて典型と言われていたネットワークアーキテクチャを超えて、実際に色々と知らない用途が大小提示されてくるのはそれがいよいよ本格的に実っているということでもある。もう少し具体的に言えば、ニューラルネットワークの使い道の広がり方には二つあるように思われる。

一つは、単に入出力として扱える対象を増やしていくこと。
結局入れて出すものが数値であればなんでもできるのがニューラルネットワークだ。個々の入力を処理するというよりは複数の入力間の関係を見ることで同一性判定にも使えるし、別のネットワークの入出力そのものを教師データとしてしまえば知識蒸留にも使えるし、演算機構自体をモジュールと見做してネットワークで表現してしまってもいいし、オワコンかと思われたGANに至ってはワッサースタインとかいう奥義を得て最適輸送問題のソルバーに転生したりしているらしい。この辺りは④その他関連トピックスで色々紹介されていて面白かった。

もう一つは、特徴量空間という概念の芳醇化だ。
この物言いが何を意味しているのかをクリアに説明するのはやや難しい。特徴量空間は元より人間には解釈できない事柄を処理するための領域として存在している節があり、メタに扱うこととベタに理解することが全く等価ではないからだ。とはいえ、識別モデルのように単なる入出力を検分するのではなく、内部で概念を弄りたい生成モデルにとっては有益なメディウムを意識することこそが重要だよね、という文章は一読して意味のわからないものではないだろう。
思えばこうした手つきの在り方は、ハンムラビ法典のように受けたものをそのまま返すだけのオートエンコーダの隠された有用性によって既に示唆されていたが、「概念演算」などというゼロ年代アニメの能力者のようなコンセプトを持つword2vecに継承され、いまや画像と文章を同一空間に乗せてシンプルに人智のカテゴリを越境するCLIPまでもが現れた。こうなるとあらゆる形式及び概念を同一の空間上に載せるというポップSF的な発想が誰の頭にも浮かんでくるだろうし、それもすぐに出てくるか、もしくはもう既にあるのかもしれない。