信頼性向上の第一歩!~SLI/SLO策定までの取り組みと運用事例~ - connpass
こちらのイベントに参加してきたので、会の様子と感想を書いていこうと思います。
会の概要
以下、イベントページから引用です。
サービス品質を高めるためのSLI/SLOですが、組織内での運用がうまくいってないケースや導入タイミングに悩まれている方も多いのが現状です。
本イベントではSLI/SLOについて向き合っていらっしゃる4名の皆様に、導入までの取り組みや運用上の課題とその解決策を共有いただけますと幸いです。
参加者にとって今後システムの信頼性向上に取り組んでいくための知識やヒントを得られるイベントになることを目指します。
会の様子
SLI/SLOの設定を進めるその前に、アラート品質の改善に取り組んだ話
最初にtandenさんから発表がありました。
SLI/SLOは長期戦が必要であり取り組みを継続的にやっていくのが難しいということです。
そこで、最初の一歩としてアラート品質の改善に取り組んだそうで、アラート通知チャンネルの再編に取り組んだそうで、緊急度別のチャンネル分けやサービスの重要度での分解をしたそうです。
また、オオカミ少年的なアラートを減らせるように、棚卸し会を開いたり、runbookの整備を行ったということでした。
開発組織全体で意識するSLI/SLOを実装している話
続いて守屋さんから話がありました。
元々SLOの設定はそんなに優先度が高いと思っていた守屋さんですが、プロダクトやチーム同士で価値観の違いが出てきてDev VS Ops的な話になりがちだったため、どこまで安全と攻めのバランスを取るか?という観点で、SLI/SLOの導入を決めたそうです。
導入したことで、指標について考える過程で運用課題が出てきたり、納得感のあるSLI構築ができたということです。
取り組みをふりかえってみて、OKRにつながったり改善施策の議論が継続的にできているのは良かったと思っている一方で、運営委員に負荷が偏りがちだったり本質的な指標はまだ計測しにくい点は課題だと考えているそうです。
SLI/SLO・ラプソディ - あるいは組織への適用の旅
nwiizoさんから話がありました。
SLI/SLOを導入するには、以下の3つが大切だという話がありました。
- 変化に対する抵抗があることを理解する(変化や惰性、労力、感情、心理による抵抗)
- 多くのステークホルダーと協働する(エンジニアやCS、経営層それぞれの言葉で話をするようにする。例えばエンジニアには技術的な課題の話をするし、経営層に対してはROIなどの観点で話をする)
- 目に見える成果が出るまでに時間がかかると思っておく(全社戦略を考えて、部門内での変革を推進していき、全社戦略や変革施策をアップデートする)
SREとしてSLI/SLOをどう普及してきたか、CTOとしてSLI/SLOをどう活用しているか
最後に安藤さんから話がありました。
安藤さんの会社では、まずCUJから考えてSLI、SLOを考えるというアプローチを取ったそうで、教科書的にサービスモニタリングをスタートしたそうです。
モニタリングしてみるとWebのレイテンシが遅いことが分かったそうですが、門番から支持者/パートナーへなるためにエスカレーション100本ノックをするようなセルフサービスを作ったということで、SLO違反のエスカレーションが民主化したということでした。
安藤さんはCTOとして、三線モデルにおける一線の責任者だと考えているそうで、経営者として事業のリスクを捉えるためのツールとして考えているということです。
会全体を通した感想
SLI/SLOに関しては教科書的な話と実践の乖離が割と大きめな心象を持っていたので、こうした実践事例がまとめて聞ける機会は貴重でした。
長期戦前提と言いつつも目に見える形での効果というのも一定は求めてやっているんだなあというのを個人的には思ったのですが、そういった継続させるためのプラクティス的なところがもっと多数の事例を聞いて自分の中で一定パターン化できるといいなと思いました。