https://ozaki25.hatenadiary.jp/entry/2025/07/11/180116

2025/7/11
https://sre-next.dev/2025/

Fast by Friday: Making performance analysis fast and easy

Brendan Greggさん

SRE へのサポートケースをAIに管理させる方法

Ubie株式会社 guniさん
https://speakerdeck.com/guni1192/sre-henosapotokesuwoainiguan-li-saserufang-fa

UbieのSREへの問い合わせは
- 3ヶ月で300件超
- 3人で回している
- 数分で解決できるもの
- 数営業日から数週間かかるものも
  - 環境構築の相談とか
- Slackの問い合わせをチケット化して管理
- 稼働の半分くらいが問い合わせ対応になる
問い合わせの内容
- Toilなものが多い
- マニュアル的な作業
- サービスが多いので反復的に発生
- 担当によって一貫性のない回答になる
  - ベストプラクティスの認識があってないことも
- 定型的なものはSREが介在せずに解決したい
フローの改善
- Slackへの問い合わせに自動対応
- AIが一次回答したり
- 自動でチケット化したり
  - 統計もとれるように
- Slackのスレッド要約
  - 議論してる中に呼ばれたりした時の手間を減らす
これまでと比べて
- SREがプルリク作っちゃう方が楽なことが多かった
- botがドキュメント提示して事足りることも多くなった
  - その方がはやいし問い合わせする前に解決することも
今後
- 一次回答だけでは解決しない
  - 対話してやりとりが必要
  - 最初の回答からhowが変わることもある
  - 長文をいきなり返されても読めない
- MCPの実装
  - チケット情報をとれるように

クラウド開発の舞台裏とSRE文化の醸成

さくらインターネット株式会社長野雅広さん
https://speakerdeck.com/kazeburo/sre-next-2025-lunch-session

さくらのクラウドは条件付きガバメントクラウド
- 政府全体で共通利用するクラウドサービス基盤
- 他はAWSなど
- 約300の要件を全て満たす必要がある
- 2025末までに満たすことを前提に仮認定された状態

SREチームの越境と対話〜どのようにしてイオンスマートテクノロ ジーは横軸運用チームの廃止に至ったか〜

イオンスマートテクノロジー株式会社齋藤光さん
https://speakerdeck.com/aeonpeople/the-cross-border-and-dialogue-of-sre

設立当初
- ビジネス/開発/インフラ/運用の壁
- SREとスクラムの強化を進めた
- ビジネス的価値と顧客価値の向上
- 部門の越境
越境と対話の参考になる本
- 組織を変える5つの対話
- 変化を嫌う人を動かす
- 他者と働く
SREチームの動き方
- 当初はEnablingとPlatformの側面
  - 1対nの関係になって大変
  - コンテキストスイッチの多さ
  - whyから話してる余裕がない
- Embeddedへ
  - 開発チームと目線を揃える
  - 依頼の関係じゃなくて一緒に
SLI/SLO策定
- エンジニア部門とビジネス部門で合意が必須
- 正しい知識を持って認識しないと
障害対応
- アラートを受け取るチームと開発チームが別だった
  - よく分からないアラートがなる度に開発チームに問い合わせ
  - アラートを受け取る立場じゃないから整理の優先度があがらない
  - チームの壁問題
- ポストモーテム文化
  - 障害を学びにする余地が大いにある状況
横軸チームの廃止
- 多くの取り組みによって開発チームのオーナーシップが高まった

複雑なシステムにおけるUser Journey SLOの導入

株式会社メルカリ土屋健司さん

User Journey SLO
- 顧客目線のSLO
  - 複数のサービスをまたがった目標
- 従来のものは開発者目線のSLO
  - 単一のサービスに閉じた目標
体制
- マイクロサービスの各アプリの担当が開発運用をする
- SREは最後の砦としてオンコール対応もする
クリティカルな障害
- サービスのコア機能が使えなくなる障害
- マイクロサービスなので障害時に何ができて何ができないかわからない
  - どのAPIをどこが使ってるか把握しきるのは無理
  - 開発者が自分の機能が止まった時にどこに影響が出るのか分からない
User Journy SLOの策定
- 1つのユーザージャーニーで1つのSLOにする
  - 多少誤差があっても1つにまとめたい
- クリティカルAPIのメトリクスを用いてSLI定義
  - 後から見直していく
ジャーニーの定義
- メルカリで40のクリティカルジャーニーを定義した
- 誰が見ても同じ認識になるように
- 画面操作と遷移
- Availableな状態とは
- コア機能にフォーカスして
クリティカルAPIの探索
- クリティカルなユーザージャーニーで使われるAPIを探索
- 障害を擬似発生させて挙動を確認
  - クリティカルAPIを特定
- アプリは変更が激しいのでクリティカルAPIも変化していくので常に最新に
  - テストツールで自動化
- APIのメトリクスをダッシュボードで可視化
  - 担当の開発チームへのコンタクト先も合わせて

サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩

株式会社タイミー徳富博さん

分散トレーシング
- システムをまたいだリクエストの流れの監視追跡
TraceContextの設定
- heepヘッダーで
- 種類によってヘッダーが違う
  - Datadog
  - tracecontext
- どれを使ってるか意識しなくていいいようにラップしてくれてるやつがある
  - 環境変数で切り替えられる

モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェクト

ニフティ株式会社仲上浩豪さん
https://speakerdeck.com/niftycorp/monitaringutong-henodao-nori-fen-san-monitaringuturutong-he-notamenoobuzababiriteipuroziekuto

さまざまなシステムでモニタリングツールが統一されてない
- ランニングコストがかかる
- ノウハウ共有ができない
- 監視実装の不統一
モニタリングツールの整理
- ログ/トレース/メトリクスとれること
- 監視設定の管理
- コスト
- Azure Monitorを採用
  - 他はAWSのCloudWatchとかdatadogとか

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

株式会社IVRy 森谷浩幸さん
株式会社IVRy 渡部龍一さん
https://speakerdeck.com/ivry_presentationmaterials/dui-hua-xing-yin-sheng-aiapurikesiyonnoxin-lai-xing-xiang-shang-noqu-rizu-mi

LLM APIの運用
- ハルシネーション抑制
  - AI Workflowとして実装
    - 分割することでバリデーションやエラー分析がしやすくなる
  - 自動電話応答のE2Eテスト
    - 会話が完了してるか
    - 終了後にSMSを送って内容があっているか
  - Datadog LLM Observability
    - 便利だが機密データなので運用検討中
- 安定性
  - 障害が起きるとユーザの事業へのインパクトが大きい
  - LLMは不安定なことがある
  - datadog inferred service
  - 複数LLMの組み合わせ
    - fallback strategy
    - 何か起きたら他のLLMに投げる
WebSocketプロダクトの運用
- 安全なデプロイが難しい
  - デプロイすると通話がエラーになることが
  - graceful shotdownはできてる
  - エラーログも出ない
  - アプリケーションの問題ではなくALB-ECSの構成のところだった
  - タイムアウトが120秒で1通話でそれを超えてると正常終了できなかった
音声対話システムのSLI/SLO
- 機能的にはよくてもユーザのフラストレーションにつながることは多い
- 何をどれくらいよくするのかしっかり明確に
- そのためのSLI/SLO
- ユーザー体験をどう定量化するか
  - ちゃんと会話できたかという主観
- 会話なので複数トランザクションに対して定義しないといけない
- 目的達成を阻害する要因を考える
  - システム起因と対話起因を切り分ける
  - 数値としてとれる指標を見つけて計測

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

株式会社MIXI 杉本浩平さん
https://speakerdeck.com/kohbis/towards-the-next-decade-enhancing-global-service-reliability-through-sre

みてね：写真の共有サービス
- 最初は日本でその後グローバル展開
- 同じアプリで多言語②対応
- AWSの東京リージョンのため海外からだと地理的な距離が問題になる
- アクセスがとても遅いという声が来る
- 2018/2にSREチーム創設
課題への対処
- 画像動画のダウンロード
  - S3の署名付きURLを発行してアクセスさせていた
  - 事前にURLを発行してURLをクライアント側にキャッシュさせておく
  - URL取得の分だけ改善
- 画像動画のアップロード
  - USからの場合USのS3にアップしてクロスリージョンレプリケーションしていた
    - アップは遅くなかったが同期が遅かった
  - Amazon S3 Transfer Accelerationを導入
  - 長距離転送が高速化
- API全体
  - キャッシュポリシーが無効化されたCloudFrontを導入
  - 地理的に近いロケーションにルーティングされAWSが最適化した通信経路で東京に来る
マルチリージョンへの移行
- 2022頃から海外ユーザの割合が増えてきた
- どこのレイヤーをマルチリージョンするか
  - EKS/Aurora/ElastiCache/S3
- 事業の方針として閲覧体験の改善が重要
  - 読み取りをマルチリージョンで最適化
  - アップロードのマルチリージョンが単純に難しいというのもある
- バージニア北部リージョンをターゲットに
  - アメリカとヨーロッパをカバーできる
- Amazon Aurora Global Database
  - ストレージベースの物理レプリケーション
  - RDS Proxyに依存していて移行が大変だった
- CloudFrontのビヘイビア + Lambda@Edge
  - ネットワーク情報から位置情報を取得し適切にルーティング
  - Lambda@Edgeが重かった
  - Route53 Latency-based routingを追加
  - AWSのマネージド機能で低レイテンシーのリージョンに割り振る

システムから事業へ〜SREが描く“その先”のキャリア〜

ソフトバンク株式会社原智子さん

Fast by Friday: Making performance analysis fast and easy

SRE へのサポートケースをAIに管理させる方法

クラウド開発の舞台裏とSRE文化の醸成

SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜

複雑なシステムにおけるUser Journey SLOの導入

サービス連携の“謎解き”を可能にする Datadogによる分散トレース導入の一歩

モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェクト

対話型音声AIアプリケーションの信頼性向上の取り組み ~ Webアプリケーション以外でどうSREを実践するのか ~

〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏

システムから事業へ 〜SREが描く“その先”のキャリア〜

システムから事業へ〜SREが描く“その先”のキャリア〜