- 2025/1/26
- https://2025.srekaigi.net/
SRE、開発、QAが協業して挑んだリリースプロセス改革
宮後 啓介さん(ニーリー)
https://speakerdeck.com/nealle/sre-kai-fa-qagaxie-ye-sitetiao-ndaririsupurosesugai-ge-at-sre-kaigi-2025
- 過去の課題
- デプロイ頻度の低さ
- 月に2-5
- 変更障害率の高さ
- 40%くらい
- デプロイ頻度の低さ
- 開発-運用までのプロセスを改革していった
- ゼロダウンタイムでのリリース
- Feature環境導入
- 開発環境へのマージ前にクラウド上にあげて確認できる環境
- PRトリガーで構築
- PR閉じたり定期的なタイミングで削除
- 開発DBを自動複製
- Feature環境と開発環境のDBを共有していた
- 変更はいるときに手動複製していた
- PR単位で専用DB構築するようにした
- テストでの本番データ利用
- テストをパラレルに
- 開発チームのテストとQAのテストを並行して実施できるように
- Feature環境を活用して
- リリーストグル
- デプロイと機能の有効化をフラグで切り替える
- トグルを横断して確認できるダッシュボード
- 不要トグルを検知して複雑になってるコードを消していく
- 今後の改善
- stgに変更をためてまとめてリリースしてる
- チーム間の調整など発生しているから解消したい
一人から始めたSREチーム3年間の歩み -求められるスキルの変化とチームのあり方-
VTRyoさん(マネーフォワード)
https://speakerdeck.com/vtryo/the-three-year-journey-of-the-sre-team-which-started-all-by-myself
- 各部署特化のSREチームとその他を見る横断のSREチーム
- SREの取り組み
- 最初は開発チームに入ってSREっぽいことをやった
- アラート設計見直し
- ダッシュボード作成
- ミッション/ビジョンを早めに作った
- 採用なども見据えて
- 人が少し増えて各人が複数チームを担当するような体制
- フェーズの違う複数の課題が起きていた
- 1人が休むとその担当先の進捗が0になってしまう
- Embeddedでは無理なのでEnablingに
- さらに拡大してチームとして各プロダクトの対応をできる状態に
- 専門性の高いメンバーが増えた
- 経験が浅い領域にチャレンジできるようになった
- 緊急ではないが重要なこと
- 将来発生する問題への検討
- データの肥大化
- SREチームと開発チームの距離
- 双方の規模拡大に伴い関係性が薄くなる
- リリース情報を全部把握できなくなった
- プロダクトの懸念を敏感にきゃっちできなくなった
- 言葉だけでは人の入れ替えで文化は残らない
- 仕組みで残すのが大切
- 依頼に対応してるだけだと作業員感が強くなってしまう
- 専門性の高いメンバーが増えた
- 最初は開発チームに入ってSREっぽいことをやった
- SRE個人として
- 自分がどのフェーズで活躍できるかわからなくなる
- 立ち上げ/拡大/安定フェーズ
- 得意なフェーズが異なる人が混ざってる方が価値観があわさっていい
サービスローンチを成功させろ!〜SREが教える30日間の攻略ガイド〜
- ローンチ前にSREがやること
- Production Readiness Checklist
- サービスが本番稼働可能な状態になってるかのチェックリスト
どうやればインシデント対応能力を鍛えられるのか?
髙石 諒さん
https://speakerdeck.com/takaishi/sre-kaigi-2025
- インシデント
- 定義はコンテキストによって様々
- ここではユーザに影響が出る/出る可能性のある障害
- インシデント対応
- 影響を最小限に抑えて信頼性を維持
- 原因特定/暫定対応
- 高級対応/再発防止
- 社内外とのやりとり
- ポストモーテム
- などなど
- インシデント対応に必要なスキルは多様
Improving Incident Response using Incident Key Metrics
髙村成道さん
https://speakerdeck.com/nari_ex/improving-incident-response-using-incident-key-metrics
- MTTRの問題点
- TTX
- 網羅的/粒度が細かい/収集できる
- 発生/検知/認知/チーム構成/解決策特定/緩和/復旧/解決/完了
- どのステップまでの時間をとるといいか
2,000万ユーザーを支えるSREチームの6年間のスクラムのカイゼン
HonMarkHuntさん
https://speakerdeck.com/honmarkhunt/2500mo-yuzawozhi-erusretimuno6nian-jian-nosukuramunokaizen
- SREでスクラム
- 差し込みが多い
- プラットフォーマーとしてのタスクやアラート/インシデントなど避けられないものが多い
- 計画通りに進められないとベロシティが安定しない
- スプリントゴールが達成できない
- 一定あるものとして受け入れるしかない
- バックログに性質が違うものが並ぶ
- 中長期の目標を描きづらい
- スプリントからの積み上げを意識する
- MVVからブレイクダウンする
AWSにおける横断的なログ分析とコストの管理
山北 尚道さん
https://speakerdeck.com/naomichi/awsniokeruheng-duan-de-narogufen-xi-to-kosutonoguan-li
- オブザーバビリティを高めるにはログの一元管理は重要
- コストとの兼ね合い
- 役割に応じて必要なところに配置
- 監査ログ
- イベントログ
- EventBridge+Lambdaでだいたいのサービスのログを収集できる
- ログが数十分で消えるサービスもあるから
- AWS Cost Explorer
- 13ヶ月分の請求を確認できる
- アラートも設定できるが細かくやろうと思うと大変
- 複数サービス組み合わせて構築しないといけなかったり
Platform EngineeringがあればSREはいらない!? 新時代のSREに求められる役割とは
渋谷 充宏さん/那珂 将人さん
https://speakerdeck.com/mshibuya/platform-engineeringgaarebasrehairanai-xin-shi-dai-nosreniqiu-merareruyi-ge-toha
- Platform Engineering
- セルフサービス型の開発者プラットフォームの構築運用
- バックエンドとインフラの一部がプラットフォームによって提供される
- 構造が変わってもSREの役目はある
- プラットフォームがある中での開発
- 認知不可が高い
- 提供される・ツールやサービスが多岐にわたる
- ツールやサービスの進化のはやさ
- ツール間の非互換
- 日々のメンテや組み合わせによる試行錯誤で生産性が低下
- プラットフォームと開発の橋渡しとしてのSRE
- 認知不可が高い
その他
- Re:Define 可用性を支えるモニタリング、パフォーマンス最適化、そしてセキュリティ
- Site Reliability Engineering on Kubernetes
- 実践: Database Reliability Engineering ~ クラウド時代のデータベースエンジニアの役割 ~
- SIEMによるセキュリティログの可視化と分析を通じた信頼性向上プロセスと実践
- ブロックチェーンR&D企業におけるSREの実態
- 信頼性を支えるテレメトリーパイプラインの構築
- インフラコストとセキュリティ課題解決のためのリアーキテクチャリング
- 横断SREの立ち上げと、AWSセキュリティへの取り組みの軌跡
- ガバメントクラウドに向けた開発と変化するSRE組織のあり方
- SREじゃなくてもできる!インシデント対応で鍛えたCREチームの5年史
- 2週に1度のビッグバンリリースをデイリーリリース化するまでの苦悩 ~急成長するスタートアップのリアルな裏側~
- SREとしてスタッフエンジニアを目指す
- 監視SaaSの運用におけるObservability改善の歩み
- コード化されていない稼働中のサーバを移設/再構築する技術