https://error-daizenn.hatenablog.com/entry/2025/11/20/211743

2025年11月20日公開

まずはざっくり全体像：昨日なにが起きていたのか？

2025年11月18日（火）、世界中で「Xが開かない」「ChatGPTが落ちてる」「Spotifyもダメ」「マックの注文端末までエラー」と、ほぼパニック状態の朝になりました。

原因は、Cloudflareという巨大CDN（コンテンツ配信ネットワーク）が大規模障害を起こし、X・OpenAI（ChatGPT）・Spotify・Canva・マクドナルドなど、Cloudflareに乗っているサービスが一気にアクセス不能になったことです。

発生時刻はUTCで見るとこんな流れでした。

(1) 11:05ごろ
Cloudflare内部でデータベース権限の変更が行われる

(2) 11:20〜11:28ごろ
Bot Management用の設定ファイル（feature file）が“おかしなサイズ”で生成されはじめる

(3) 13:00ごろ
その巨大ファイルが世界中のエッジサーバーに行き渡り、トラフィック処理ソフトが一斉クラッシュ、HTTP 500など5xxエラーが爆発的に増加

(4) 14:30ごろ
原因が特定され、問題のファイルをロールバック、コアトラフィックが徐々に回復

(5) 17:06
ほぼ全サービスの復旧が完了

Cloudflareは世界のCDNシェアの約28％、トラフィック比で見ると「インターネットの2〜3割」を握っているとも言われています。

だから一社がコケただけなのに、体感としては「ネットの3分の1が同時に死んだ」レベルの揺れになった、というわけですね。

たった1つのファイルが世界を止めた？技術的な“連鎖事故”をかみ砕いてみる

今回の障害、Cloudflareの公式ブログや各種技術系メディアを読むと、ものすごく要約するとこういう話です。

「Bot Managementで使っている設定ファイルが、権限変更ミス＋バグのコンボで“想定よりデカくなりすぎて”、それを読み込んだソフトが次々クラッシュした」

もう少しだけ丁寧に分解すると、流れはこんな感じ。

(1) データベース権限の変更
　あるDBの権限を変えた結果、Bot管理用のクエリが“余計なレコード”まで拾うようになった

(2) feature file の中身が2倍に
　本来は数十エントリしか入らない設定ファイル（feature file）が、重複データを含んだせいで“ほぼ2倍”のサイズに肥大化

(3) その巨大ファイルが全世界に配布
　Cloudflareのネットワーク全体に、その新しいfeature fileが自動配布される

(4) トラフィック処理ソフトの「ファイルサイズ上限」に引っかかる
　各エッジサーバーで、Bot Managementモジュールがそのファイルを読み込もうとするも、
　ソフト側には「このファイルはこのサイズまで」というハード制限がハードコードされていた

(5) 想定外サイズ → 例外処理ミス → プロセスクラッシュ
　サイズオーバーをうまく扱えず、プロセスがクラッシュ、結果としてHTTP 500（サーバー内部エラー）や他の5xxエラーが大量発生

(6) そのモジュールが“トラフィックのど真ん中”にいた
　Bot判定のコンポーネントは、Cloudflareのトラフィック処理の重要な通り道に組み込まれていたため、
　ここが死ぬと「ボット判定だけじゃなく、そもそもリクエスト処理全体が止まる」状態に

Cloudflareは公式ブログで「この問題はサイバー攻撃やDDoSとは一切関係なく、内部の設定変更とソフトウェアバグが重なったものだ」と明言しています。

要するに、“1つの設定ファイルのサイズチェックを甘く見ていた”ことが、インターネット全体のボトルネックとして爆発した、というかなり皮肉な事故なんですよね。

なぜ最初「サイバー攻撃だ！」と騒がれたのか

障害の最初の数十分、Tech系Xや海外メディアのタイムラインでは

「これDDoS？」「中国かロシアか？」「ゼロデイでやられた？」

みたいな声が飛び交っていました。

その理由はシンプルで、**“症状だけ見ると、巨大なDDoS攻撃とほぼ同じ挙動に見えた”**からです。

HTTP 5xxが世界的に急増
CloudflareダッシュボードやAPIまで重くなる
ステータスページも安定しない

さらに同じ日に、Microsoftが「史上最大級のDDoS攻撃を食らった」と別件の報告を出していたこともあって、余計に混乱しました。

しかし調査の結果、

ログ上、特定の攻撃パターンは見られない
負荷のピークがCloudflare内部の処理と連動している
問題のファイルを旧バージョンに戻したら一気に改善した

ことが分かり、「これは完全に自爆でした、ごめんなさい…」というオチになったわけです。

CloudflareのCTOもXなどで、「インターネット全体に与えた痛みを心からお詫びする」とコメントしています。

なぜここまで広がった？Cloudflareが握る「インターネットの玄関」と集中化問題

今回の事件を理解するうえで外せないのが、**Cloudflareの立場＝“インターネットの玄関ドア”**という視点です。

Cisco ThousandEyesや各メディアの解説によると、CloudflareのようなCDNは

世界中にサーバーを分散配置して
Webコンテンツをキャッシュして配り
DDoS防御やBot対策、WAFなどのセキュリティも肩代わりし
ユーザーは「各サイトの本物サーバー」ではなく「まずCloudflareのエッジ」に接続する

という仕組みになっています。

だから、

本番アプリやAPIサーバー自体が元気でも
その前に立っているCloudflareが落ちると
ユーザーからは「サイト全部死んでる」にしか見えない

という状態が起きるわけです。

しかも、Cloudflareは

CDN市場シェア約28％
Webトラフィック全体の20〜30％を流している

と言われていて、「ほぼ3分の1の前段」を一社で握っている状況です。

つまり今回の障害は、「世界中がたった1社のフロントドアに依存している状態で、そのドアの鍵が壊れたらどうなるか」という“実地シミュレーション”になってしまった、とも言えます。

2025年は「インターネットインフラ崩れ年」？AWS・Azure・CrowdStrikeとの連鎖

このCloudflare障害だけを切り取ると“レアケース”に見えますが、2025年全体で見ると、正直ちょっと暗い気持ちになるラインナップです。

7月：CrowdStrikeの誤アップデートで、世界中のWindowsが同時にブルースクリーン（BSOD）
10月：AWS US-EAST-1の障害で、Amazon・Reddit・Snapchatなどが長時間ダウン
10月末：Microsoft Azureの障害で、Microsoft 365・Xbox・大手小売・航空会社が広範囲に停止
11月：今回のCloudflare障害で、X・ChatGPT・Spotify・Canva・McDonald’sなどがダウン

特にCrowdStrikeの件では、航空会社・病院・小売・金融など“現実世界のインフラ”まで止まり、被害額は数十億ドルとも言われています。

こうして並べると、「インターネットの裏側で動いているインフラが少数のプレイヤーに集中し、そのどれか1つがバグると、デジタル・リアル問わず世界中の生活が止まる」という構造がはっきり浮かび上がってくるんですよね。

Cloudflareの公式対応：再発防止のために何を変えるのか

じゃあCloudflareは「二度とやりません」で済ませる気かと言うと、さすがにそこまで軽くはなくて、公式ブログや各メディアでいくつか対策を挙げています。

主な再発防止策はざっくりこんな感じです。

(1) feature file の生成ロジックを全面見直し
　・DBクエリに対する厳格なバリデーション
　・重複エントリをそもそも出さない仕組み

(2) ファイルサイズの上限チェックを“安全側”に変更
　・ソフト側のハードリミットを見直し
・上限超過時は“落ちる”ではなく“古い安全なファイルを使う”挙動に

(3) グローバルな「キルスイッチ」の整備
　・問題のコンポーネントだけを全世界レベルで即時無効にする仕組み
　・少なくともトラフィックルーティング自体は生かす設計に

(4) 段階的ロールアウトの徹底
　・いきなり全リージョンに配布ではなく、
“カナリアリージョン → 一部エッジ → 全体”という段階テストを必須に

Cloudflareは「インターネットにとって自分たちがどれだけ重要かは理解している。それだけに、今回のようなダウンタイムは絶対に許されない」とかなり強い言葉でコメントしています。

ただ、それでも“人間が作るソフトウェアは必ずバグる”という現実は変わらないので、利用側（企業・開発者）が“Cloudflareが落ちても生き残る設計”を考える必要はやっぱりあるんですよね。

一般ユーザー視点：私たちができることは正直少ない。でもゼロではない

個人ユーザーからすると、「Cloudflareが落ちたらどうしようもなくない？」という結論になりがちです。
実際、インターネットの根っこの設計を変えることはできません。

それでも、“落ちたときに困りすぎない工夫”くらいなら、今日からでもじわっと仕込めます。

例を挙げるとこんな感じ。

(1) 重要データを“1サービス限定”にしない
　・パスワードはブラウザ任せにせず、ローカル保存可能なパスワードマネージャーを使う
　・仕事や学校の資料は、別クラウド or ローカルにもコピーを置いておく

(2) 認証手段の“オフライン準備”
　・2段階認証のバックアップコードを紙やオフラインに保管する
　・認証アプリも、クラウド連携に依存しないTOTP系を混ぜておく

(3) 「落ちても仕方ないサービス」を決めておく
　・Xや音楽ストリーミング系は“落ちたら散歩に行く”くらいの気持ちで
　・逆に銀行・決済・仕事ツールなど、本当に困るものだけは複数の手段を確保

インターネット全体は守れなくても、「自分の生活にとって致命傷になるポイント」を少しずつ減らしておくことは、完全にムダではありません。

企業・情シス向け：単一障害点（SPOF）を“見える化”するところから

一方で、
「うちのサービス、CloudflareもAWSもめちゃくちゃ使ってます…」
という企業・情シス側は、さすがにもう「たまたま運が悪かった」で済まなくなってきました。

やるべきことを欲張らずに分けるなら、まずはこのあたりです。

(1) 依存構造の棚卸し
　・DNSはどこ？1社集中？
　・CDN／WAFは全部Cloudflare？
・認証（IdP）は1サービスにベタ依存してない？
　図にしてみると、想像以上に“ここが死んだら全部終わり”なポイントが見えてきます。

(2) 「ここだけは死んだらマジで終わる」を2重化
　・少なくともDNSと認証だけは、別リージョン or 別サービスでDR構成に
　・CDNもマルチCDNを検討（Cloudflare＋別ベンダーなど）

(3) “落ちたとき運用”のシミュレーション
　・Cloudflareが落ちたら、社内・顧客にどうアナウンスするか
　・最低限どのサービスだけは生かすのか
　・現場にどんな手順書があれば動けるのか

実際、海外のエンジニア掲示板では、

「うちはCloudflareと別系統のCDNを併用していたので、完全ダウンは免れた」
「逆にすべてCloudflare前提で作っていたSaaSは、サポート窓口まで全部止まって地獄だった」

みたいな体験談も複数出ています。

“全部を多重化する”のは現実的じゃなくても、“ここだけは絶対に止めたくない”ところから順番に逃がしていく、という発想が重要になってきている感じですね。

フォーラム風コメント：みんなならどう感じた？どう備える？

この記事がコメント欄付きのフォーラムだとしたら、たぶんこんな会話が飛び交ってそうです。

user_A
「出勤前にXも音楽アプリも使えなくて、“え、今日なにかあった？”ってなりました…。Cloudflareって名前は知ってたけど、正直ここまで世界を握ってるとは…。」

user_B（Webエンジニア）
「設定ファイルのサイズチェック甘くてプロセスクラッシュ、は正直“やりがち”すぎて笑えない…。ただ、その1つがインターネット全体の単一障害点になってるのが、2025年っぽい怖さですよね。」

user_C（情シス）
「CrowdStrike→AWS→Azure→Cloudflareと来ると、マルチクラウドやDRの話を“贅沢”扱いしてた上層部も、そろそろ本気で財布を開いてくれそうな気がしています…。いや、開いてほしい…。」

user_D
「個人としては、クラウド全部が落ちたら諦めて本読んで寝る、って決めました（笑）。でも仕事用のデータだけは、ローカルと別クラウドに複製作るようにしましたね。1回こういうのを体験すると、ちょっと考え方変わります。」

まとめ：「バグは必ず起きる」前提で、“壊れても耐えられるネット”をどう作るか

最後に、ポイントだけもう一度。

2025年11月18日、CloudflareのBot Management用設定ファイルが権限変更ミス＋バグで“異常なサイズ”になり、それを読み込んだソフトが世界中でクラッシュした結果、X・ChatGPT・Spotify・Canva・McDonald’sなど無数のサービスがHTTP 500（5xx）を返す大障害になった。
当初はDDoSやサイバー攻撃も疑われたが、サイバー攻撃ではなく“純粋な内部設定ミス＋ソフトウェアバグ”であることが公式に確認されている。
CloudflareはCDN市場の約28％、Webトラフィックの約2〜3割を扱っており、インターネットの“玄関”が1社に集中している構造そのものが、今回のような「一発で世界が揺れる事故」を生みやすくしている。
2025年は他にも、CrowdStrike・AWS・Azureなどの大規模障害が立て続けに起きていて、「インフラ集中のリスク」がいよいよ現実味を帯びてきた年になっている。
個人ユーザーは

重要データの多重保存
認証のオフライン手段
「落ちたら諦めるサービス」の整理
といったレベルからでも、少しずつ“揺れにくい生活”を作っていける。

企業・情シスは

単一障害点の棚卸し
クリティカル部分の2重化（DNS・認証・CDNなど）
障害発生時の運用Bプラン
を現実的な範囲で整えていく必要がある。

バグは必ず起きるし、人は必ずミスる。
だからこそ、「1つのファイル」が世界を止めないための工夫を、利用者側もそろそろ本気で考えるタイミングに来ているのかもしれません。

あなたの環境では、CloudflareやAWSが丸ごと落ちたら、どこまで仕事や生活を続けられそうですか？
もし「全然ムリだな…」と感じたなら、その違和感こそが、次の一歩へのスタートラインなのかなと思います。