虎の穴ラボの山田です。普段はアーキテクトチームで通販サイトの運用や環境構築、各種自動化などを担当しています。
今回は先日実施した社内イベント「虎の穴ラボ Tech Talk #7」の中で発表した内容をブログにまとめたものです。 この回のイベントテーマは「日々のAI活用」だったのですが、通販システムの運用における悩みをAIを使ってどのように解決しようとしているか、具体的な事例を交えてご紹介します。
運用現場が抱える「2つの悩み」
システム運用の現場では、避けては通れない共通の課題があります。
悩み①:監視対象の多さと、判断の難しさ
システムの規模が大きくなると、各マシンのメトリクスやサーバーログをすべて人の目で監視し続けるのは困難です。アラートが飛んだ時だけ確認するといったことも多いですし、また、その内容を正しく判断するには「ある程度の知識」が必要になります。
悩み②:手作業によるミスの発生
一部の作業では対象マシンにSSH接続して作業する必要があります。作業自体はマニュアル化されていますが、それを見ながらの手作業はどうしてもミスの可能性を排除できません。
これらの課題に対し「AIによる分析」と「AIを介した作業」というアプローチで解決を試みました。
【ツール①】OracleDBアラートログ監視
課題
通販システムの核となるOracleDBですが、そのアラートログの調査は外部サポートに頼るかWeb検索をする必要があり手間がかかっていました。
解決策と仕組み
OracleのアラートログをAIに解析させ、その内容を毎日Slackに投稿する仕組みを構築しました。 開発にはClaude Codeを利用し、以下の処理を行うPythonスクリプトを作成しています。
- 毎日ローテートされるアラートログを取得
- OpenAI APIにログをアップロードし、現状の問題点を分析してもらう
- 分析結果をSlackの指定チャンネルに投稿
構成図

導入の効果
このツールを導入したことで、毎日Slackを見るだけでアラートログの内容が確認できるようになりました。AIがエラー内容を噛み砕いて説明してくれるため、自分でWeb検索をする手間がなくなったのも大きなメリットです。
【ツール②】MCPを活用したサーバー調査用Slackbot
課題
バッチのデプロイ時に制御ファイルのリネームやプロセス監視を目視で行う必要がある環境があります。この作業はマニュアル化されているのですが、やはり手作業で行うためミスの不安が伴うものとなります。
解決策と仕組み
Slackから自然言語(普通の話し言葉)で指示を出すだけで、対象マシンのプロセスやログを確認できるSlackbotを作成してみました。 こちらも開発にはClaude Codeを利用し、以下の処理を行うPythonスクリプトを作成しています。
特徴はMCP(Model Context Protocol)サーバーを介させた点です。これによりAIが直接サーバーに対して操作できないようにし、MCPで定義された「特定の操作」しか行えないようにすることで運用の安全性を確保しています。
(MCPは「AIモデルとツールを接続するための標準規格」です)
構成図

期待される効果
こちらは現在導入を進めている段階ですが、以下のような効果を見込んでいます。
- 手作業が減ることでの作業軽減
- MCPを介すことによる、運用上の安心感
- 「ミスするかも」という作業者の心理的負担の軽減
まとめと今後の展望
AIをシステム運用に組み込むことで、単なる効率化にとどまらない効果も生み出せるように思えました。 今後はさらにAIによる監視対象の増加や、各種作業の自動化を進めていきたいと考えています。またAIによる自動復旧まで実現できたら良いな、とか考えています。
採用情報
虎の穴ラボでは一緒に働く仲間を募集中です!
この記事を読んで、興味を持っていただけた方はぜひ弊社の採用情報をご覧ください。
toranoana-lab.co.jp