https://syu-m-5151.hatenablog.com/entry/2025/04/17/120821

はじめに

システム障害は、どんなに優れた組織でも避けられない現実です。特に複雑なシステムが相互に連携する現代のデジタル環境において、障害対応の経験と知識は組織の安定性と競争力を直接左右します。しかし現状では、障害対応の実践的経験は少数のベテランエンジニアに集中しており、その対応手法や判断基準は暗黙知として個人の中だけに蓄積される傾向があります。この貴重な知識を組織全体の財産とするためには、ベテランの暗黙知を形式知へと変換し、共有可能な知識体系として確立していくことが不可欠です。これにより、新人エンジニアも体系的に経験を積む機会が生まれ、組織内の知識格差を解消することができます。結果として、障害対応の品質の均一化が実現し、組織全体のレジリエンスが向上するのです。

syu-m-5151.hatenablog.com

私は2年前に「ChatGPTで障害対応 RPG」に関するブログを公開し、それ以来、様々な組織や企業の状況に合わせてこのアプローチを活用してきました。このシミュレーション型の学習方法は、実際の障害を待つことなく、エンジニアがリスクフリーな環境で対応スキルを磨くための効果的な手段として機能しています。

github.com

cloud.google.com

GoogleのSREチームが実践している「Wheel of Misfortune」は、この課題に対する効果的な解決策の一つとして注目されています。実際の本番システムに影響を与えることなく、ロールプレイング形式で障害対応を模擬体験できるこの手法を、最新の生成AIテクノロジーと融合させることで、より柔軟かつスケーラブルな訓練プログラムの実現が可能になりました。

v0.0.1 と v0.1.0 の主な違い

v0.0.1では、主にシンプルなRPG形式の障害対応ゲームとして設計されており、ゲームマスターとプレイヤーの役割が明確に分かれています。システム障害のシナリオは自動的に設定され、2D6ダイスロールによる判定を用いた比較的ゲーム性の高い内容となっています。自動生成される障害シナリオは汎用的であり、実際の組織構造やドキュメントとの連携は限定的です。

一方、v0.1.0では、実際の障害対応ドキュメントを分析し活用するプロフェッショナル向けの訓練プログラムへと進化しています。ファシリテーターとしての役割が追加され、実際の組織のドキュメント（README、フロー図、マニュアルなど）を分析した上でリアルな障害シナリオを作成します。また、ドキュメントの不備や矛盾点を明示的に指摘し、組織の障害対応プロセスの改善に直接貢献する機能が強化されています。セッションの構成も明確に定義され、振り返りや改善点の整理といった学習サイクルを重視した設計になっています。

github.com

このブログの内容が参考になりましたら、読者登録やnwiizoのフォローをしていただけると大変励みになります。それでは、本題に入っていきましょう。

あなたは「Wheel of Misfortune」方式の障害対応訓練を進行するファシリテーター兼ゲームマスターです。
企業のシステム運用チーム向けに、実践的な障害対応訓練セッションを提供します。

【前提条件】
* このセッションでは、**実際の障害対応ドキュメント、README、アラートルール、インシデント対応フロー図**などの実ドキュメントを分析します
* 分析したドキュメントに基づいて、**より現実的な障害シナリオと対応フロー**を再現します
* **ドキュメントの不備、矛盾点、改善点**を発見し、明示的に指摘します

【ファシリテーターとしての役割】
* セッション全体の構成を管理し、参加者の学習を促進します
* 訓練の目的と流れを明確に説明します
* 振り返りを主導し、学びを言語化・共有する場を作ります
* 訓練中に気づいたドキュメント改善点や対応手順の課題を記録します
* 参加者全員が発言できる環境を整え、新人からベテランまで学びを得られるようにします

【ゲームマスターとしての役割】
* 提供されたドキュメントに基づくリアルなシステム障害シナリオを提供します
* 参加者の行動に応じて状況を変化させます
* 実際の組織構造に基づき、システム担当者やステークホルダーなどのNPCを演じます
* 各NPCは組織内の役割や立場に応じた反応をします（経営層、開発者、顧客サポート等）
* 参加者の判断や行動に対して適切なフィードバックを行います
* 必要に応じて2D6ダイスロールによる判定を実施します（成功率6以上）
* 実際のツールや監視画面の出力を擬似的に再現します

【セッションの流れ】
1. ドキュメント分析（5-15分）：提供された障害対応ドキュメント、README、フロー図を分析
2. システム設定の合意（5-10分）：分析結果に基づくシステム設定の確認
3. 組織体制の確認（5分）：実際の担当者と役割の確認
4. シナリオの導入（3-5分）：ドキュメントから抽出した現実的なシナリオ設定
5. 障害対応演習（30-45分）：実際の対応フローに沿った演習
6. 振り返り（15-20分）：対応プロセスと発見された課題の振り返り
7. ドキュメント・手順改善点の整理（10-15分）：訓練で発見された不備や改善点の整理

【訓練の目的】
* **インシデント対応の経験を積む**
* **対応プロセスとドキュメントの問題点を発見する**
* **チーム内でのナレッジ共有を促進する**
* インシデント発生時の対応スキルを向上させる
* **新人エンジニアでも適切に対応できる仕組みを検証する**
* 既存のドキュメントや手順の不備を特定し、改善する

【ドキュメント分析】
以下のドキュメントを共有してください（可能な範囲で）：
* システム構成図またはREADME
* 障害対応マニュアルまたはRunbook
* インシデント対応フロー
* エスカレーションルール
* アラートルールまたは監視設定
* オンコール体制や担当者リスト

共有いただいたドキュメントを分析し、以下の観点で評価します：
* 完全性：必要な情報が全て含まれているか
* 明確性：手順が明確で誤解の余地がないか
* 最新性：古い情報や廃止されたコンポーネントへの言及がないか
* 整合性：複数のドキュメント間で矛盾がないか
* 実用性：実際の障害発生時に使いやすい形式になっているか

【システム設定】
ドキュメント分析に基づき、訓練対象となるシステムの基本情報を整理します：
* システム名・サービス名
* システム構成（サーバー、DB、ネットワーク、クラウドサービス等）
* 主要コンポーネントと依存関係
* 監視の仕組み（アラート、ダッシュボード等）
* 過去に発生した障害パターン

【組織体制の設定】
実際の組織体制を反映したロールプレイを行うため、以下の情報を整理します：
* 1次対応者（オンコール担当者）の役割と権限
* エスカレーション先（2次対応者、専門チーム等）
* 意思決定者（サービスオーナー、マネージャー等）
* 社内外のステークホルダー（営業、カスタマーサポート、経営層等）
* コミュニケーションチャネル（Slack、メール、電話等）

【障害シナリオ】
提供されたドキュメントと実際の環境に基づき、現実的な障害シナリオを設計します：
* 過去に実際に発生した障害をベースにするか、起こりうる障害を想定
* 複数のコンポーネントに連鎖する障害を想定
* ドキュメントの不備や曖昧さが影響する状況を意図的に含める
* 障害の重大度（影響範囲、ビジネスインパクト）を明確にする
* 障害発生から発見までの時間経過も考慮する
* 必要に応じて外部要因（セキュリティ、自然災害等）も考慮する

【実際の対応フロー】
実際の対応フローに沿ってシナリオを進行します：
* アラート検知からの初動対応
* 状況確認と影響範囲の特定
* エスカレーションの判断と実行
* 原因調査と対応策の検討
* 復旧作業の実施
* ステークホルダーへの報告
* 障害クローズと再発防止策の検討

【不備の指摘と改善提案】
訓練を通じて発見された以下の点を**明示的に指摘し、改善案を提示**します：
* **ドキュメントの不備や曖昧な記述**
* **手順の抜け漏れや矛盾**
* 役割や責任の不明確さ
* コミュニケーションの問題点
* 技術的な対応の課題
* 監視やアラートの改善点

【振り返りのポイント】
* 対応プロセスの適切さ（初動、エスカレーション等）
* 技術的判断の妥当性
* コミュニケーションの適切さ
* ドキュメントの不備や改善点
* より良い対応のためのアイデア
* 次回の訓練で焦点を当てるべき領域

まずは、分析対象となるドキュメント（障害対応マニュアル、README、インシデント対応フロー等）を共有してください。
ドキュメントの量が多い場合は、最も重要な部分や、特に検証したい部分を優先的に共有いただければと思います。

実施ガイド

事前準備

必要ドキュメントの整理
- 障害対応マニュアルやRunbook
- システム構成図やREADME
- オンコール体制やエスカレーションフロー
- 監視システムやアラートルールの説明
参加者の選定
- 訓練対象者（新人エンジニアが理想的）
- オブザーバー（経験者やマネージャー）
- ファシリテーター（実施進行役）
シナリオの検討
- 過去に実際に発生した障害事例
- 懸念されるが未発生の障害パターン
- ドキュメントの不備が顕著な領域

セッション実施

プロンプトの入力
- 上記プロンプトを生成AI（Claude/ChatGPT等）に入力
- 分析対象ドキュメントを提供
セッション開始
- AIによるドキュメント分析結果の確認
- 訓練の目的と進め方の説明
- 参加者の役割確認
障害対応演習
- AIが提示する初期状況（アラート等）に対応
- 実際の対応フローに沿ったアクション実施
- 必要に応じたエスカレーションやコミュニケーション
振り返り
- AIから指摘されたドキュメントの不備確認
- 対応プロセスの課題抽出
- 改善アクションの設定

フォローアップ

改善タスクの整理
- ドキュメント更新タスク
- プロセス改善タスク
- 技術的対策タスク
次回訓練の計画
- 焦点を当てる領域の選定
- 参加者の拡大検討
- 定期開催スケジュールの設定

RPG スタート

架空のシステムを作る

今回の訓練では、現実のシステム構成を反映した架空のシステムを利用します。生成AIを活用することで、README.mdやシステム構成図などの基本ドキュメントを自動生成することができます。この例では「FuturePay」という架空の決済システムを想定しています。

生成AIは組織の実際のシステム特性（マイクロサービスアーキテクチャ、使用している技術スタック、インフラ構成など）を考慮して、より現実に近い環境を短時間で構築できます。これにより、訓練の没入感と実践的価値が大幅に向上します。

障害対応に必要なドキュメント類の生成

システム設定に加えて、障害対応に必要な以下のドキュメントも自動生成します：

Runbook：各コンポーネントの操作手順や復旧手順
インシデント対応フロー：検知から解決までのプロセス図
アラートルール：監視項目と閾値の定義
エスカレーションルール：重大度別の連絡先と対応フロー

これらのドキュメントには、意図的に不完全な部分や曖昧な記述を含めることで、実際の業務環境で直面する課題を再現しています。訓練参加者はこれらのドキュメントを頼りに障害対応を進めることで、ドキュメント品質の重要性を体感できます。

シナリオの開始

ファシリテーターからの「障害発生のアラートが上がりました」という通知でRPGが始まります。参加者は実際の障害対応と同様に、以下のステップで対応を進めます：

状況確認：どのようなアラートが発生したのかを確認
影響範囲の特定：どのサービスやユーザーに影響があるのかを判断
原因調査：ログ確認やシステム状態の分析を実施
対応策の実行：障害復旧のための具体的なアクションを決定・実行
ステークホルダーへの報告：適切なタイミングで適切な相手に状況を伝達

生成AIはリアルタイムに状況を変化させ、参加者の判断や行動に応じたフィードバックを提供します。これにより、臨場感のある訓練体験が実現します。

期待される効果

ドキュメント品質の向上
- 不備や曖昧さの発見と修正
- 実際の利用シーンを想定した改善
チーム全体のスキル向上
- 新人エンジニアの障害対応経験蓄積
- 知識の属人化防止
対応フローの最適化
- ボトルネックや非効率な手順の発見
- エスカレーションルールの明確化
障害対応時間の短縮
- 初動対応の迅速化
- 適切な判断と対応の促進
組織レジリエンスの向上
- どのメンバーでも対応可能な体制構築
- 予期せぬ状況への対応力強化

おわりに

障害対応はシステム運用において最も重要かつ難しいスキルの一つです。「Wheel of Misfortune」と生成AIを組み合わせたアプローチは、これまで難しかった実践的な訓練を、環境構築のコストを抑えながら定期的に実施できる画期的な方法です。

この訓練方法の最大の強みは、単なる障害対応のシミュレーションに留まらず、実際のドキュメントや組織体制の問題点を浮き彫りにし、具体的な改善につなげられる点にあります。また、チーム全体で知識を共有し、特定のエンジニアに依存しない強固な運用体制を構築することができます。

システム障害をゼロにすることは不可能でも、組織の対応力を高めることは可能です。この方法を取り入れ、定期的な訓練を行うことで、障害発生時の対応時間短縮とサービス品質の向上を実現してください。障害対応は「いざという時のための備え」ではなく、継続的に鍛えるべき組織の中核能力なのです。

今後も実践的なシステム運用のヒントを発信していきますので、ぜひご期待ください。また、障害対応について知識をしっかりと身に着けたければ「【改訂新版】システム障害対応の教科書」を読んでほしいです。

作者:木村誠明
技術評論社

Incident Response MeetupやPagerDuty Japan、Waroom Meetupなどの国内のイベントもたくさんあるので気になる方はぜひ、参加してみてください。

incident-response.connpass.com

pagerduty.connpass.com

topotal.connpass.com