https://tamakino.hatenablog.com/entry/2025/02/09/080000

「まぐまぐ！」でメルマガ「知らなかった！中国ITを深く理解するためのキーワード」を発行しています。

明日、vol. 266が発行になります。

登録はこちらから。

https://www.mag2.com/m/0001690218.html

今回は、DeepSeekショックについてご紹介します。

1月27日の週が明けると、米国のテック企業の株価はDeepSeekショックに襲われました。中国の「深度求索」（DeepSeek）が昨年末に発表した「DeepSeek-V3」が、最先端をいくOpenAIのGPT-4oと同等の性能であり、なおかつ、わずか2ヶ月のトレーニング期間で、たった2048枚のNVIDIAのGPU「H800」しか使わず、558万ドルのトレーニングコストで開発されたからです。

▲DeepSeek-V3のトレーニングコスト。H800を1時間使うコストが2ドルだとして計算している。「DeepSeek-V3 Technical Report」（DeepSeek-AI）より引用。

▲DeepSeek-V3の各種ベンチマークテストの成績。OpenAIのGPT-4oとほぼ同じ。また、Llama、Qwenを確実に上回っている。「DeepSeek-V3 Technical Report」（DeepSeek-AI）より引用。

558万ドルは8.7億円程度で、うっかりすると小さな自社ビルよりも安いぐらいです。GPT-4oのトレーニングコストは公開されていませんが、1億ドル程度と言われています。下手をすると1/20のコストで開発できているのです。

このせいで、利用料は非常に安くなっています（DeepSeekは、2月8日までキャンペーン割引料金になっていました）。

OpenAIのGPT-4oに匹敵する性能ですが、重要なのはメタのLlama、アリババの通義（Qwen）を大きく超えていることが重要です。なぜなら、Llamaと通義は、DeepSeekと同じ、オープンソースであるからです。つまり、DeepSeekは現在のところ、オープソース最強のAIということになります。なぜ、オープンソース最強であることが重要なのかについては、後ほど詳しくご説明します。

このトレーニングコストの小ささが、利用料金にも反映されています。

▲GPT-4oとDeepSeekのAPI利用料金。単位は100万トークンあたりのドル。トレーニングコストの安さを反映して、1/10以下の料金になっている。

GPT-4oは、入力で18.5倍、出力で13.6倍です。これはAPI利用料ですから、自作のプログラムやアプリなどから利用する場合の料金です。

さらに、1月20日には推論機能を備えたDeepSeek-R1がリリースされ、1月27日にはソースコードが誰でもダウンロードできる状態で公開されました。こちらも、同じく推論機能を備えているOpenAIのGPT-o1とほぼ同等の性能です。

▲推論機能のあるDeepSeek-R1とGPT-o1のベンチマークテストの比較。ほぼ同等の性能を出している。「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」（DeepSeek-AI）より引用。

このDeepSeekに関しては、多くのメディアが「米国AIの優位性が失われてしまうかもしれない」と報道し、「米国AI vs 中国AI」という対立軸を立てています。しかし、ほんとうにそうでしょうか。

米国AIを開発している主要テック企業の株価下落率を見てみましょう。ショック前の1月24日の終値を基本に、その後、最安値になった額の下落率を計算しました。

▲主要AIテック企業の株価下落率。アップルは下落をしていない。いずれも3％から4％であり、大きな下落とは言い難い。

いわゆるビッグテックGAFAMの株価の下落率は3%から4%程度です。しかも、各社とも、現在は1月24日の終値以上に上昇をしています。一瞬少し落ちただけで、ショックというほど打撃は受けていないのです。

一方、AI開発に必須で、そこが開発コストの大きな部分を占めることになるGPU（並列計算チップ）を製造しているNVIDIA（エヌビディア）、データセンターのネットワーク機器を扱っているブロードコムの株価は大きく下がり、現在もショック前の株価に戻せていません。

面白いのは、米国の電力ベンチャーです。さまざまな発電所から電力を購入し、小売をしている企業ですが、近年、AI開発と利用に莫大な電力が必要となるとして、株価があがり続けてきました。ところが、電力ベンチャーの株価下落率は20%から30%にもなる厳しいもので、現在も低迷したままになっています。

▲下落率が大きいのは、GPUを製造しているNVIDIAと、電力ベンチャー。NVIDIAは1月24日の株価にまだ戻れず、低迷したままになっている。

つまり、投資家たちは、AIを開発運用しているビッグテックに対する影響は大きくなく、GPUとデータセンター、電力などのAI基盤の需要が弱くなり、その関連企業の業績が悪くなるのではないかと見ているのです。

つまり、対立軸となっているのは「米国AI vs 中国AI」ではなく、「大規模投資AI vs 適正規模投資AI」なのです。

DeepSeekに限らず、ほぼすべてのAIモデルはその技術内容を論文やブログの形で公開しており、さらにはDeepSeekもそうですが、メタのLlamaやアリババの通義などオープンソースのAIも少なくありません。オープンソースとは、ソースコードを公開し、誰でも自由に使ってかまわない、改造してもかまわないというものです（その代わり、自分もオープンソースとして公開するのが原則です）。

つまり、技術は誰の目にも丸わかりであり、企業秘と言えるのは学習周りの実戦的なノウハウぐらいです。米国のAI企業は、DeepSeekの論文を読んでその技術を取り入れることができますし、DeepSeekのソースコードを元に開発を進めることもできます。

これまで、AIモデルはビッグテックでなければ開発ができないと思われてきました。それを打ち破ったのはOpenAIです。OpenAIは公共性を帯びた開発を旗印にして資金調達に成功をしました。いずれにしても、お金がなければどうにもならないと思われていたのです。

それが、小さなビル程度の資金で、小さなチームでも、最先端のAIモデルが開発できる可能性が出てきました。実際、DeepSeekの社員数は100人程度で、70人程度のエンジニアが開発をしたと言われています。中国はもちろん、米国でも、これからスタートアップやベンチャーなどが、最先端のAIモデルを発表する可能性が出てきています。ここが大きなゲームチェンジになっています。

では、なぜDeepSeekは、ここまで低コストでAIモデルを開発することができたのでしょうか。その答えはひとつではありません。DeepSeekの論文を読むと、従来のAI開発を全面的に見直し、さまざまな改善を行っています。そのキーワードは「最適化」です。

最適化をすることで無駄な演算をしなくてよくなる。その分、コストが減り、精度があがるということになります。これを地道に積み上げてきた、思いつく最適化アイディアをすべて投入して成功させたというのが実態であるように思います。

その中で特筆すべき技術が4つあります。

１）MoE（Mixture of Experts）アーキテクチャ

２）PTX (Parallel Thread Execution)

３）知識蒸留（distillation）

4）GRPO（Group Relative Policy Optimization）強化学習

いつものように難しいことは私は分かりませんので、正確な技術解説は、それこそDeepSeekに尋ねていただくとして、このような技術がどんなものであるか、そして、今後の進化やAIの普及にどう影響してくるのかをご紹介します。

今回は、DeepSeekショックの本質とは何かを説明し、DeepSeekで注目すべき4つの技術についてご紹介します。そして、どんなゲームチェンジが起きたのかを考えます。

続きはメルマガでお読みいただけます。

毎週月曜日発行で、月額は税込み550円となりますが、最初の月は無料です。月の途中で購読登録をしても、その月のメルマガすべてが届きます。無料期間だけでもお試しください。

今月、発行したのは、以下のメルマガです。

vol.266：厳しいゲーム規制は効果があがったのか。子どもたちの生活とゲーム産業に与えた影響