以下の内容はhttps://yuj1osm.hatenablog.com/entry/2024/10/16/210224より取得しました。


Datadog Summit Tokyo 2024 参加レポート

Datadogが主催する「Datadog Summit Tokyo」というイベントに参加したので、その様子をご紹介します。

イベント概要

開催日時:2024年 10 月 16 日 (水) 会場:赤坂インターシティコンファレンス 参加費用:無料

本イベントは、オブザーバビリティの専門家やDatadogチームから直接学ぶことができる1Dayイベントです。 Datadogがもたらすデータとインサイトを活用して、システムのパフォーマンス、セキュリティ、および信頼性を向上させるための実践的なアドバイスを得ることができます。

www.datadoghq.com

セッションメモ

基調講演

Datadogのこれまでとこれから

スピーカー:
Datadog
プレジデント&カントリーゼネラルマネージャー 日本法人社長
正井 拓己 氏

  • 東京での開催は2019年以来で2回目

  • Datadogとは

    • 2010年創業
    • 5,200名の社員
  • Datadogのスケール
    • モニタリングしているホスト数は100万台
    • バックエンドへのクエリは1日10億件
  • 開発と運用の溝を埋めるために設立
  • 名前の由来はサーバの名前
  • ちなみにロゴの犬にはBits(ビッツ)という名前がある
  • デジタル、クラウド、AI技術の発展に追従するコンセプト

    • 統合化されたプラットフォーム
    • シンプルだが単純でない
    • その結果、どこでも活用できて誰にでも使える
    • そして、部門の壁を破壊する
  • 現在のDatadog

    • 豊富なオブザーバビリティ機能   * インフラ、ログ、APM   * DevSecOpsを実現するクラウドセキュリティ   * DEM(Degital Experimental Monitorn
    • 他システム・サービスとの統合   * 750以上のサービスと統合
    • 優れたユーザエクスペリエンス   * 容易なダッシュボード、クエリ不要な分析
    • 統合的なデータ活用   * あらゆるデータをタグ付けして統合的な監視
    • システム環境に非依存   * オンプレからクラウドまで
    • 継続的なR&D投資   * 毎年多くの新機能をリリース
  • 新機能ピックアップ

    • Flex Logs
    • Datado On-Call
    • LLM Observability
  • 日本市場の拡大

    • 2023年4月 日本データセンター
    • 2023年8月 日本法人設立
    • 2024年2月 認定資格開始
学び、共有し、受け入れることで得られる大きな価値

スピーカー:
Datadog
COO(チーフ オペレーティング オフィサー)
アダム・ブリッツァー 氏

  • pardot社の設立からsalesforceに吸収されるまでの歴史
  • Datadogは2010年に設立された
    • 当初はモニタリングだけだったが、年々機能を拡充してきた
  • 学習し、共有し、実践するがDatadogが大事にしている価値
Datadogダッシュボードで見える化する、新たなビジネス価値創造のチャンス

スピーカー:
NTT Docomo
コンシューマサービスカンパニー 第二プロダクトデザイン部 ウォレットサービス担当
野部 大貴 氏

  • D払いとは

    • 電子決済サービス
    • 常に進化している
  • Datadogの利用例

    • 検知にはMonitor、分析にはAPMを利用
    • 情報の見える化、網羅的な情報のモニタリングにはダッシュボードを活用
  • ビジネス価値貢献事例

    • D払いをもっと使ってもらうためにD払いスタンプ機能をリリース
    • 問題なく使えているか、目的達成に貢献できているか(決済数UPしているか)を可視化
    • ユーザストーリーごとにグルーピングして、エラー数やレイテンシを監視
    • 各ユーザストーリー毎にUXが損なわれていないかを確認→お客様ファースト
    • Datadogにより決済数の増加を確認できた
    • 一方、宝箱の開封率は高くないことも気付けた
    • そこで改善機能の実装として、宝箱の開封を促すメッセージ機能(ホームに有効期限を表示)を実装
    • 宝箱開封率が32.3%UP
    • 変わったこととして、システム担当者が積極的にビジネス観点も見るようになった
  • ダッシュボードとの向き合い方

    • 価値につながるデータは何か、どんな見方がよいかのかを徹底的に考える
    • 案件の目的を理解し、必要なデータや見方を最適化
    • 機能が目標通り使われているか(リクエスト数)→目標達成の見込みを把握可能
    • 起動時間はどれぐらいか(レイテンシ)→改善が必要な処理を特定可能
    • 多く使われている導線は何か→ニーズが高い導線を把握可能
  • データとの向き合い方とダッシュボードの進化とともにビジネス価値創造に貢献

  • 今以上に積極的なダッシュボードをビジネス担当にも広めていく
開発チームと歩むSLO監視文化の立ち上げジャーニー

スピーカー:
One Career
技術開発部ATSチームSRE
渡邉 美希パウラ 氏

  • ワンキャリアについて

    • 起点となる新卒採用領域から事業をスタート
    • 年間取引者数は2,200社
    • 短期間でサービス急増、利用者も増加
  • SLO運用スタート

    • サービスが落ちないだけでなく、サービスのパフォーマンス向上・維持に注力
    • 毎日ダッシュボードを確認
    • SLO監視と違反対応の優先度が開発側で上がらず、運用が疎かになった
    • 開発とSREでSLOの認識が異なる
  • SLO運用の再構築

    • ナレッジ共有
      • SREから開発チームにナレッジを共有
    • SLO監視の運用負荷を軽減
      • 開発チームの意見を取り入れながらSLI・SLOを再定義
    • カルチャーの醸成
      • SREチーム手動で毎週水曜に遅いエンドポイントをパフォーマンスチューニング
      • 開発チームを巻き込むSLO定例、毎月経営へ報告
    • 人事評価指標との連動
  • シン・SLO運用とは

    • ユーザー体験を軸にしたSLO運用
    • 計測対象の拡大
      • アプリやフロントエンドのメトリクス
    • 注力指標の選定
      • CUJ(Critical User Journey)を把握してユーザーにとって大事なエンドポイントを選定
  • 今後は、SLOの運用と経営の意思決定を連動させることを目指す

  • SLO運用は攻めの投資になりる

  • SLO運用は計測ツールとともにSLO監視文化を根付かせることが重要

クラウドマネージドサービスの挑戦:多様なSI/SaaS環境の共通基盤化

スピーカー:
Toshiba Digital Solutions
デジタルエンジニアリングセンター マネージドサービス推進部 フェロー
鹿野 市郎 氏

  • 会社紹介

    • SIやSaaSで様々な業界へ価値を提供
    • アプリ寄りのSREとインフラ寄りのSRE、CCoE的なSREがある
    • SREの課題への取り組み→多様なSI/SaaS環境の共通部品として標準化
  • 問題解決のアプローチ

    • 通化対象の選定
      • アプリ、クラウドは多様化を許容
      • 監視、ネットワーク、セキュリティは共通化の推進
    • 機能面
      • 監視→監視ツール、インシデント対応、チケット基盤
      • ネットワーク→閉域網の選定
      • セキュリティ→ウイルス対策IPA、WAFなど 共通基盤「クラウドマネージドサービス」完成
  • 成果

    • AWSやAzureのそれぞれのセキュリティダッシュボードを使っていたが、Datadogに一元化し学習コストダウン
    • アラート件名と本文の統一化
    • Datadogによるセキュリティ対策と運用サポート
    • プライベートクラウドの監視一元化
    • ポータル分離の安心感
  • 振り返り

    • マルチクラウド、ハイブリッドクラウドを一つのツールで監視できた
    • 今後はオブザーバビリティに着手
Workflow automation によるインシデント原因調査の自動化

スピーカー:
Degica
シニア サイトリライアビリティ エンジニア, SRE
伊藤 勝梧 氏

  • 会社について

    • KOMOJU→決済代行システム
    • 多様な決済方法を提供
    • 海外の決済手段も対応
    • 導入実績10,000社以上
  • 課題

    • インシデント復旧までのプロセス
    • 迅速に障害検知できることが最重要
    • 問題の原因が特定できれば解決は容易だが、時間がかかることが多い
    • ドメイン知識がないと難易度が高い
  • 対策

    • Runbookがあれば原因特定が容易
    • Runbook自動化があれば復旧まで短時間で対応可能
  • Workflow automation

    • Dtadog内のデータを参照するパターンと各クラウドプラットフォームを参照するパターンがある
    • 前者のがお勧めだが料金が上がりやすいため注意
    • 後者はDatadog内にデータを保存せず無料なので、必要に応じて使い分ける

ワークショップ

全部で3つのワークショップがあり、「Datadog 101:SRE」では、APMやNPMによるパフォーマンス分析やダッシュボード作成を一通り体験することができました。

ワークショップで実施した内容は、Datadogラーニングセンターでも提供されており、気軽に体験できます。

docs.datadoghq.com

会場の様子

会場では大きな画面でDatadogのデモを行っており、様々な機能やユースケースについて議論が交わされました。

AWS GameDayスピードランのコーナーがあり、AWSとDatadogによる課題解決のスピードを競い合いました。

朝昼晩と食事が提供され、食事片手に交流ができます。

帰りにはswagも頂けました。

まとめ

Datadogのユースケースだけでなく、SRE文化の醸成やサービス価値の向上など様々な話を聴くことができました。
特に、技術的な内容よりは、ユーザの活用事例やSREに関する取り組みの紹介にフォーカスしていたのが印象的でした。
また、ワークショップやGameday、デモを通じてDatadogの活用方法を学ぶことができ、非常に充実した1日でした。
Datadogユーザも年々増え続け、コミュニティも活発になり、気軽に学べる多くのコンテンツもあるので、より学んでいきたいと思います。
以上、簡単ですがDatadog Summit Tokyo 2024の様子をご紹介させていただきました。




以上の内容はhttps://yuj1osm.hatenablog.com/entry/2024/10/16/210224より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14