こんにちは、プラットフォームビジネス事業グループの高橋です。
今回はシステム・インフラ運用のオブザーバビリティ(可観測性)を強化する、最新のツールである【StageCrew™】についてお伝えしたいと思います。
本記事は前編となっており、後日後編をアップする予定です。
前編はStageCrewを使用した横断的な情報収集とAI分析、後編はAIを使用したナレッジトランスファーの課題解決についての内容となっていますので、是非ご覧ください。
それでは、まずはStageCrewとは何かを説明していきます。
概要
●StageCrewとは
・開発の背景
StageCrewは「インフラ運用保守」や「システム開発運用」の現場での利用を想定した、オブザーバビリティ(可観測性)を強化するクラウドサービスです。
※補足:オブザーバビリティ(可観測性)とは? システムの状態を外部から観測し、その状態を把握・分析する機能のことで、複雑化するシステムの中で、問題発生時の原因究明や早期解決を可能にします。
StageCrewは、複数の監視ツールなどに表示されているグラフや数値を、同時にスクリーンショットを自動で取得し、結果をAIで分析しフィードバックをしてくれます。
更には、特定の時間帯ごとに取得したスクリーンショットを、AIが比較し分析することができ、監視ツールだけの利用にとどまらないツールとなっています。
・開発コンセプト
StageCrewとは黒子を意味し、舞台である運用現場(Stage)で活躍されるメンバーの皆さんを、裏方のメンバー(Crew)として業務のサポートをするサービスにしたい、という思いから名付けられ、ロゴにも黒子のお面をデザインに取り入れているそうです。

・課題に対してのStageCrewのアプローチ
StageCrewは、一般的にシステムやインフラの開発や運用の現場で抱えている以下のような問題を解決してくれるサービスです。
▼Zabbix、Grafanaなどの確認すべき監視ツールが様々あり、AWSの障害情報や脆弱性情報などの関連する情報も、手作業で個別に確認し、情報収集と整理を行っており時間を要している。
▼個々の担当者のスキルレベルの差の課題もあり、障害対応や運用の対応品質にバラつきが出ている。
▼日々の対応に追われ、メンバーへの教育や、メンバーの新たな別プロジェクトへの参画も難しく、スキルアップや人材流動がなかなかできない。
上記のような課題に対し、StageCrewはAIを活用した解決策を提供してくれます。
既存のアプリ・サービスと連携して、スクリーンショットを自動取得し、AIが横断的に分析・報告を行います。
運用開発現場がシングルクリックで様々な必要情報にたどり着け、情報収集の時間が1分程度に短縮されるだけでなく、作業内容も標準化され、スキルと経験に依存しない運用と、情報収集の工数の削減に繋がるサービスとなります。

●StageCrewの仕組み
次に、StageCrewの概念や技術について説明します。
・基本構成の概念 StageCrewを構成する技術は大きく分けて「ビジュアルコネクト」「マルチモーダルAI」「URLパラメータ」「ブラウザオートメーション」の4つの技術で成り立っています。
<ビジュアルコネクトとは?>
ビジュアルコネクトとは、アクセスしたサイトを画像(ビジュアル)として取得する技術です。
StageCrewはこの技術で各種ツールへ横断的にアクセスし、スクリーンショットを取得します。
<マルチモーダルAIとは?>
マルチモーダルAIとは、テキスト・画像・音声・動画・センサーデータなど、複数の異なる種類のデータを組み合わせて処理をするAIです。
取得したスクリーンショットをマルチモーダルAIで画像を解析することにより、一層精度の高い分析を実現しています。
<URLパラメータ技術とは?>
URLパラメータ技術とは、監視ツールの情報のURLを自動解析し、情報の取得の時間帯などのパラメータをStageCrew側で変更をして、スクリーンショットを取得する技術です。
つまり、必要情報にアクセスするためのURLをStageCrewが自動生成し、特定の時刻の情報をシングルクリックだけで取得することが可能です。
<ブラウザオートメーションとは?>
ブラウザオートメーションとは、Webブラウザ上で行われる一連の操作を、人間が手動で行う代わりにソフトウェア(プログラム)を使って自動化する技術です。
日々の業務でWebサイトを通じて行う定型的な作業や、Webアプリケーションのテスト、情報収集などを効率化するために非常に広く活用されています。

このように、StageCrewは様々な特有の技術で成り立っているツールです。
●StageCrewの主要機能の説明
次に、Stagecrewの主要機能の「ハブ」「アセット」「シナリオ」「AI設定」の説明をします。
<ハブ>
ハブとは、一般的なダッシュボードと似た作りになっており、各ツールからStageCrewが自動取得してきたスクリーンショットを、ウィジェットとして任意の場所に並べることができます。
また、ハブは複数作成することができ、現場メンバー用・マネージャークラス用など、使用するメンバーが欲しい情報のみを並べることができます。

<アセット>
アセットとは、StageCrewが自動で取得してくる情報の取得先を登録する機能になります。URLパラメータやブラウザオートメーションの設定もここで実施します。
アセットに登録後は、情報を取得する対象のWebサービスやツールからスクリーンショットを取得できますので、既存のWebサービスやツール側の設定は変更不要です。

<シナリオ>
シナリオとは登録したアセットからどのように情報を収集・分析するのかを設定します。
シナリオでは、「トリガー」「実行するアセット(情報の取得先)」「情報の通知先(メール、Slackなど)」「AIによる分析」などを設定していきます。
「トリガー」は「アラート」「定期実行」「インスタントルックアップ」の3種類から選択が可能です。
・アラート:アラートが発報された場合に自動でスクリーンショットの取得を行います
・定期実行:決められた時間に自動でスクリーンショットの取得を行います
・インスタントルックアップ:拡張機能から手動でシナリオを実行し、スクリーンショットを取得します

「通知先」はEメール、Slack、Teamsの3種類から設定でき、1つのシナリオに対して複数の通知先を設定することも可能です。

<AI設定>
AIが自動分析を行い出力するレポートは英語と日本語が選択できます。
またプロンプトも日本語で設定する事ができ、使用するAIの種類も「Claude」「GPT」「Gemini(Preview版)」の3種類から選択できます(7/7時点)

StageCrewには他にも、メンバーへのナレッジトランスファーが容易に実現できる以下のような機能があります。
これらの機能については、後日アップします「Stagecrew紹介-後編-」で、詳細を説明する予定ですので是非合わせてご覧ください。
<クリップ>
スクリーンショットや画面上の作業を手動で録画、Stagecrew内に保存する機能。
<スレッド>
作業証跡、報告書などを作成、保管する機能。
<エキスパートノート>
ナレッジを保存するための機能。注釈を入れた動画から自動で手順書の作成が可能。
●設定方法
ここからは、実際にStageCrewでアセットの作成~AIによる分析結果の受け取りまでの設定の流れを説明します。
今回はAWSの Service Health を確認・分析するアセット・シナリオを作成していきます。
-アセット登録-
「アセットの新規作成」をしていきます。
今回は取得対象をAWSのService Health にするので、アセット名も「AWS Service Health 」にしました。合わせて「URLパラメータ」の設定も行います。

URLを入力すると「自動検出されたサービス」に「AWS_Switch_Role_2024_Aug」と自動入力されました。
上記の設定を基にスクリーンショットのプレビューを実行すると30秒程度でスクリーンショットのプレビューが表示されました。


但し、取得した「AWS Service Health 」の下の方画面が切れてしまったので、画面の高さの設定を修正し再度スクリーンショットを取得してみます。
(幅1600 高さ2300)

しっかり全ての情報の表示ができました。
※今回はログインが必要ないサイトの情報を取得していますが、ログインが必要な監視ツールなどの場合は、事前に「ブラウザオートメーション」の設定を行うことで、ログインのIDやPWの自動入力、ログインボタンを自動的にクリックして情報を取得することが可能です。
以上でアセットの設定は完了です。
次にシナリオの設定を行っていきます。
-シナリオ設定-
シナリオの設定では登録したアセットからどのように情報を収集・分析するのかを設定していきます。
シナリオタイトルをアセットと同様に「AWS Service Health」にして、シナリオタイプは[定期実行]を選択しました。
※定期実行:決められた時間に自動でスクリーンショットの取得を行います。
※インスタントルックアップ:拡張機能から手動でシナリオを実行し、スクリーンショットの取得を行います。
※アラート:アラートが発報された場合に自動でスクリーンショットの取得を行います。
今回の設定は[ウィザード]を使用して設定を行います。(初心者でも簡単に設定が可能です)

使用するアセット「AWS Service Health」を選択します。

次に通知先の設定をします。
今回は個人のメールアドレスに通知するように設定します。

[保存]を押下して設定は完了です。
以下の図のように「トリガー(定期実行)」「ルックアップ(AWS Service Healthの画面取得)」「通知先(個人メール)」の一連のシナリオが完成しました。

更に、StageCrewの目玉機能であるAIの設定を行っていきます。
なお、AI機能はデフォルトでoffになっているので、有効化してから設定を行います。
分析対象のスクリーンショットを選択します。
アセット登録時に設定した「AWS Service Health」を選択します。

次にAIの設定を行います。
AIモデルは「Claude」「GPT」「Gemini(Preview版)」から選択できます(7/7時点)
プロンプトは下記のように4行だけ設定してみました。

試しに「AWS Health Status」のスクリーンショットを取得しAIに上記のプロンプトで分析をさせて報告内容を確認してみます。
設定した個人のメール宛てにAIの分析結果報告が届きました。
サイト上の緑色のチェックマークをAIが正常と判断し、AWSが正常に稼働している旨の報告が受け取れました。
【更新情報】の項目にはリージョンやタイムゾーンも表記されていて、サイトを見ずに人間が判断できる材料が揃えられています。
また、メールの末尾に報告時のサイトのスクリーンショットも添付されているため、報告の正誤を確認できます。

もちろんStageCrew内でもメールで送信されたものと同じ内容の報告が確認できます。
●プロンプトの粒度によるAI分析結果の検証
ここからは、AIのプロンプトによる分析の違いを、Grafanaを使用して見ていこうと思います。
・前提
使用するGrafanaのグラフ
Grafanaでデモ版として設定できる、ランダム生成されるグラフを“CPU使用率”として使用します。
※GrafanaのURLへアクセスする度にグラフがランダムに生成されるため、同一グラフでの比較ではなく、単純比較はできないですが参考程度に検証してみました。
赤枠内のプロンプトについて、粒度を「粗い・中程度・細かい」内容に変更していきながら分析の違いをみていきます。
モデルはClaude、言語は日本語で設定しています。

※AIのプロンプトの設定は2種類あり、上記の取得したスクリーンショットの分析を行うためのプロンプトと、どのようなレポートを出力するのかのプロンプトの2種類あります。
今回のGrafanaのレポートは以下のように設定しています。

・プロンプトの粒度:粗い
赤枠内の取得したスクリーンショットの分析を行うためのプロンプトを
と記載して実行してみました。
▼グラフ

▼結果
総合的に分析した結果が出力されています。
指定した「大きく変化している時間帯」以外の時間帯についても報告が上がってきました。
その他、CPU使用率から、どういった作業がされていた可能性があるのか、今後の推奨対応なども併せて報告されています。
・プロンプトの粒度:中程度
赤枠内の取得したスクリーンショットの分析を行うためのプロンプトを
・時間帯
・変化の傾向(上昇、下降、スパイクなど)
・変化の度合い」
と記載して実行してみました。
▼グラフ

▼結果
それぞれの時間帯についての考察に「傾向」と「変化量」の項目が作られた形で、報告が上がりました。
また、%単位でどの程度増減しているのかも補足で記載されています。
こちらでも推測や今後の対応などについて記載がありました。
・プロンプトの粒度:細かい
赤枠内の取得したスクリーンショットの分析を行うためのプロンプトを
時間帯: 具体的な開始時刻と終了時刻を分単位で特定してください。
変化の傾向: CPU使用率がどのように変化しているか(急激な上昇、緩やかな下降、短時間のスパイク、持続的な高値/低値など)を詳細に記述してください。
変化の度合い: 前後の平均値と比較して、CPU使用率が何パーセント変化したかを具体的な数値で示してください。
異常性: 通常の変動範囲と比較して、この変化が異常であると考えられるかどうか、その理由も加えてください。」
と記載して実行してみました。
▼グラフ

▼結果
「傾向」の項目で”どの程度の増減か”を記載しており、それと併せて「評価」という項目が追加されています。
プロンプトで指定した「異常性: 通常の変動範囲と比較して、この変化が異常であると考えられるかどうか、その理由も加えてください。」に合致しており、一般的な業務開始の時間帯や、深夜帯の稼働も考慮された分析となっていました。
また、CPU使用率が高い時だけではなく、低すぎると判断した際にも報告がありました。

▼プロンプトの粒度による分析結果の比較
グラフが都度変わるため単純比較ではありませんでしたが、欲しい情報をプロンプトに追加することで、より精度の高い報告を受け取ることができました。
また、ここに有識者のノウハウをプロンプトに加えることで、特定の業務や場面に合わせた、より質の高い出力を得られるのではと感じました。
単なる情報提供ツールとしてだけでなく、専門知識を活かした業務支援ツールとして活用できる可能性を感じます。
●所感
設定が非常に簡単に実施でき、既存のツールや構成に対して特別な変更を加える必要がなく、導入のハードルが低いツールでした。
これまで複数のツールやサイトを確認しながら状況を把握していた作業が、StageCrewを使用することでAIが情報を整理して提示してくれるため、一人でも現状把握が容易にできそうです。
また、プロンプトに事前情報などをもっと詳細に追加していけば、さらに業務に沿った使い方ができると感じました。
開発・運用の現場で「情報の分析・整理が大変」「対応の判断が難しい」といった課題を感じている現場にとって、大きく貢献してくれるツールではないでしょうか。
後編ではナレッジトランスファーの課題をStageCrewのAIで解決できる可能性について記載していきます。