- 2025/7/11
- https://sre-next.dev/2025/
Fast by Friday: Making performance analysis fast and easy
Brendan Greggさん
SRE へのサポートケースをAIに管理させる方法
Ubie株式会社 guniさん
https://speakerdeck.com/guni1192/sre-henosapotokesuwoainiguan-li-saserufang-fa
- UbieのSREへの問い合わせは
- 3ヶ月で300件超
- 3人で回している
- 数分で解決できるもの
- 数営業日から数週間かかるものも
- 環境構築の相談とか
- Slackの問い合わせをチケット化して管理
- 稼働の半分くらいが問い合わせ対応になる
- 問い合わせの内容
- Toilなものが多い
- マニュアル的な作業
- サービスが多いので反復的に発生
- 担当によって一貫性のない回答になる
- ベストプラクティスの認識があってないことも
- 定型的なものはSREが介在せずに解決したい
- フローの改善
- Slackへの問い合わせに自動対応
- AIが一次回答したり
- 自動でチケット化したり
- 統計もとれるように
- Slackのスレッド要約
- 議論してる中に呼ばれたりした時の手間を減らす
- これまでと比べて
- SREがプルリク作っちゃう方が楽なことが多かった
- botがドキュメント提示して事足りることも多くなった
- その方がはやいし問い合わせする前に解決することも
- 今後
- 一次回答だけでは解決しない
- 対話してやりとりが必要
- 最初の回答からhowが変わることもある
- 長文をいきなり返されても読めない
- MCPの実装
- チケット情報をとれるように
- 一次回答だけでは解決しない
クラウド開発の舞台裏とSRE文化の醸成
さくらインターネット株式会社 長野 雅広さん
https://speakerdeck.com/kazeburo/sre-next-2025-lunch-session
SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜
イオンスマートテクノロジー株式会社 齋藤 光さん
https://speakerdeck.com/aeonpeople/the-cross-border-and-dialogue-of-sre
- 設立当初
- ビジネス/開発/インフラ/運用の壁
- SREとスクラムの強化を進めた
- ビジネス的価値と顧客価値の向上
- 部門の越境
- 越境と対話の参考になる本
- 組織を変える5つの対話
- 変化を嫌う人を動かす
- 他者と働く
- SREチームの動き方
- 当初はEnablingとPlatformの側面
- 1対nの関係になって大変
- コンテキストスイッチの多さ
- whyから話してる余裕がない
- Embeddedへ
- 開発チームと目線を揃える
- 依頼の関係じゃなくて一緒に
- 当初はEnablingとPlatformの側面
- SLI/SLO策定
- エンジニア部門とビジネス部門で合意が必須
- 正しい知識を持って認識しないと
- 障害対応
- アラートを受け取るチームと開発チームが別だった
- よく分からないアラートがなる度に開発チームに問い合わせ
- アラートを受け取る立場じゃないから整理の優先度があがらない
- チームの壁問題
- ポストモーテム文化
- 障害を学びにする余地が大いにある状況
- アラートを受け取るチームと開発チームが別だった
- 横軸チームの廃止
- 多くの取り組みによって開発チームのオーナーシップが高まった
複雑なシステムにおけるUser Journey SLOの導入
株式会社メルカリ 土屋 健司さん
- User Journey SLO
- 顧客目線のSLO
- 複数のサービスをまたがった目標
- 従来のものは開発者目線のSLO
- 単一のサービスに閉じた目標
- 顧客目線のSLO
- 体制
- マイクロサービスの各アプリの担当が開発運用をする
- SREは最後の砦としてオンコール対応もする
- クリティカルな障害
- サービスのコア機能が使えなくなる障害
- マイクロサービスなので障害時に何ができて何ができないかわからない
- どのAPIをどこが使ってるか把握しきるのは無理
- 開発者が自分の機能が止まった時にどこに影響が出るのか分からない
- User Journy SLOの策定
- 1つのユーザージャーニーで1つのSLOにする
- 多少誤差があっても1つにまとめたい
- クリティカルAPIのメトリクスを用いてSLI定義
- 後から見直していく
- 1つのユーザージャーニーで1つのSLOにする
- ジャーニーの定義
- メルカリで40のクリティカルジャーニーを定義した
- 誰が見ても同じ認識になるように
- 画面操作と遷移
- Availableな状態とは
- コア機能にフォーカスして
- クリティカルAPIの探索
サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩
株式会社タイミー 徳富 博さん
- 分散トレーシング
- システムをまたいだリクエストの流れの監視追跡
- TraceContextの設定
- heepヘッダーで
- 種類によってヘッダーが違う
- Datadog
- tracecontext
- どれを使ってるか意識しなくていいいようにラップしてくれてるやつがある
- 環境変数で切り替えられる
モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェクト
ニフティ株式会社 仲上 浩豪さん
https://speakerdeck.com/niftycorp/monitaringutong-henodao-nori-fen-san-monitaringuturutong-he-notamenoobuzababiriteipuroziekuto
- さまざまなシステムでモニタリングツールが統一されてない
- ランニングコストがかかる
- ノウハウ共有ができない
- 監視実装の不統一
- モニタリングツールの整理
- ログ/トレース/メトリクスとれること
- 監視設定の管理
- コスト
- Azure Monitorを採用
- 他はAWSのCloudWatchとかdatadogとか
対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~
株式会社IVRy 森谷 浩幸さん
株式会社IVRy 渡部龍一さん
https://speakerdeck.com/ivry_presentationmaterials/dui-hua-xing-yin-sheng-aiapurikesiyonnoxin-lai-xing-xiang-shang-noqu-rizu-mi
- LLM APIの運用
- ハルシネーション抑制
- AI Workflowとして実装
- 分割することでバリデーションやエラー分析がしやすくなる
- 自動電話応答のE2Eテスト
- 会話が完了してるか
- 終了後にSMSを送って内容があっているか
- Datadog LLM Observability
- 便利だが機密データなので運用検討中
- AI Workflowとして実装
- 安定性
- 障害が起きるとユーザの事業へのインパクトが大きい
- LLMは不安定なことがある
- datadog inferred service
- 複数LLMの組み合わせ
- fallback strategy
- 何か起きたら他のLLMに投げる
- ハルシネーション抑制
- WebSocketプロダクトの運用
- 安全なデプロイが難しい
- デプロイすると通話がエラーになることが
- graceful shotdownはできてる
- エラーログも出ない
- アプリケーションの問題ではなくALB-ECSの構成のところだった
- タイムアウトが120秒で1通話でそれを超えてると正常終了できなかった
- 安全なデプロイが難しい
- 音声対話システムのSLI/SLO
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏
株式会社MIXI 杉本 浩平さん
https://speakerdeck.com/kohbis/towards-the-next-decade-enhancing-global-service-reliability-through-sre
- みてね:写真の共有サービス
- 最初は日本でその後グローバル展開
- 同じアプリで多言語②対応
- AWSの東京リージョンのため海外からだと地理的な距離が問題になる
- アクセスがとても遅いという声が来る
- 2018/2にSREチーム創設
- 課題への対処
- マルチリージョンへの移行
- 2022頃から海外ユーザの割合が増えてきた
- どこのレイヤーをマルチリージョンするか
- EKS/Aurora/ElastiCache/S3
- 事業の方針として閲覧体験の改善が重要
- 読み取りをマルチリージョンで最適化
- アップロードのマルチリージョンが単純に難しいというのもある
- バージニア北部リージョンをターゲットに
- アメリカとヨーロッパをカバーできる
- Amazon Aurora Global Database
- ストレージベースの物理レプリケーション
- RDS Proxyに依存していて移行が大変だった
- CloudFrontのビヘイビア + Lambda@Edge
システムから事業へ 〜SREが描く“その先”のキャリア〜
ソフトバンク株式会社 原 智子さん