以下の内容はhttps://ozaki25.hatenadiary.jp/entry/2025/10/27/180658より取得しました。


「Observability Conference Tokyo 2025」に参加してきました

Affordable Observability: Strategy to Implementation

Liz Fong-Jonesさん(Field CTO, honeycomb.io)

  • データはSREやDevOpsに効果的
    • データが無ければ何もできない
  • クラウドになってプロダクションで効果的なデバッグはできない
    • o11yに費用を書けるが期待する結果がでないことも
    • otelを使うとデータ収集は簡単にできそう
    • 可視化ツールも多くある
    • 難しいのは保存と収集
  • 開発者が知りたいのはユーザのトランザクションがどうなっていて同機能しているか
    • 最も効果的な方法は何かという視点で考えるのがいい
    • 自前で作ると保守運用コストが大きすぎる
    • それ自体がビジネス目的ではないことに注意
  • まずはユーザの体験の測定から
    • 利用者にとってのシステム利用の成功とはなんなのか
    • 上手く使えているかエラーが起きてるかどう判断すれば良いのか
    • それらを踏まえると何が知りたいかが分かる
  • メトリクスで解決できないからといってログやツールを増やすのはコストの増加につながる
    • ログの保存などのコスト
    • ツールの費用
    • 認知負荷
  • o11yでもreuse/reduce/recycle
    • すべてを書き出しても見ないものは記録する必要ない
    • 無駄なデバッグステートメントもやらない方が良い
      • 複数行のログは解析が難しくなる
    • サンプリング
    • データの集約は最後の手段
      • 他の視点での集計ができなくなる
    • 代表的なユーザパターンのデータを保持すること
  • エラーの記録
    • 全てのエラーと遅いクエリは必ず記録したい
    • 分散トレーシングだとサンプリングとの兼ね合いが仕組み上難しい
  • telemetryはinsightではない
    • インサイトに繋がらないならデータがあってもないのと同じ
    • それを使って分析できないと意味がない
    • クエリしたり分析のしやすも大切
    • otelはこのための共通API
  • Open Telemetry
    • コミュニティドリブン
    • ベンダーニュートラ
    • ベンダーやCNCFにサポートされている
    • 利用者からのフィードバックも歓迎している
  • 私達の目的
    • 開発者が本番環境を理解し問題を迅速に解決できること
    • ユーザへの影響を最小限に抑えること
    • コードをはやくリリースできること
  • o11yをチームの文化に
    • プロセスに組み込む
    • 変更したときにドキュメント化されてるか
    • 本番デプロイしたときにメトリクスを確認するリンクを見れるか
    • 数値が上がるか下がるか予測できているか
  • o11yの導入
    • 一度に導入するのは難しい
    • 個々のチームから始めて価値を実感する
      • チームごとに成功を定義して成果を計れるように
    • 隣のチームへ広げていく
  • Otel Collector
    • o11y導入の基盤となる
    • 設定管理やで^た変換、フィルタリングなど可能
    • エージェントモード
    • サンプリングの設定もコードではなくここで
      • 全てのデータを受け取った上で処理するから
    • 高額請求を避けるためにサンプリングは事前に積極的に

可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ

Yuzuru Ohiraさん(LayerX)
https://speakerdeck.com/layerx/dev-environment-observability-guide

  • Ai Workflow
    • LayerXのサービス
  • 開発環境
    • ローカル - dev - stg - prod
    • devはマージ後に反映される環境という前提
  • o11y検討段階
    • ADRやDesighnDocは整理されていた
    • 優先度の問題でなかなか進まない
  • サービス特性としての課題
    • これまではAIのワークフロー
    • これからはエージェント
  • o11yが必要とされる課題
  • 開発環境からやる意思決定
    • 問題が深刻なので足下をはやく整理したい
    • 開発環境で整備されてないと全体のボトルネックになる
    • 開発で整理し尽くされていれば本番も容易にいけるのでは
  • まずは見える化
    • APMやRUMによる見える化
    • まずはトレース
      • ログやメトリクスよりも
      • 単一の情報をトレースすることが効果的と判断
    • Datadog APM
      • 社内で使ってた
    • Next - Python(API) - Python(Worker/Orchestrator)
      • 全部に入れた
      • どこにボトルネックがあるか勘所があるならいいが全部入れるのが手っ取り早い
  • 開発環境でトレースを優先
    • サンプリングされても自分のアクセスを大抵確認できる
    • ログとメトリクスは補助
  • 導入の成果
    • どこまで動作したか目grepじゃなくて確認できる
      • 個人環境に依存せずチーム全体で見える状態になる
    • 潜在的な問題の発見
      • 品質よりスピードを優先している状況
      • リスクと受け入れていることが可視化される
      • 例えばN+1問題
    • デバッグ性の向上
      • LLMの応答性能はdevでも分かりやすいので把握できて便利

映えないObservability

Kazuki Iwanagaさん(株式会社MonotaRO)
https://speakerdeck.com/monotaro/observability-conference-2025-monotaro-legacy-observability

  • モノタロウ
    • BtoB向け
    • 関節資材
    • ロングテール/多品種/複雑な購買
    • 買う頻度が少ないものを手間なく買えるように
    • 商品がある/すぐ見つかる/すぐ届く
  • 事業の成長に伴う複雑性の増加
    • 本来取り組むべきでない部分での複雑性
    • ビジネス要求を反映するまでのリードタイム増加
    • マイクロサービス化に伴う課題
      • 全体像を把握しづらくなる
      • 全体に影響する障害の頻発
      • -> 分散トレーシングの整備へ
  • レガシーな基幹システム
    • モダナイズの取り組みで解消されるがまだまだ時間はかかる
    • リプレイス後の方は自然とo11yは進んでいく
    • 残っているレガシーは意図的に対応していかないと
  • o11yで解決したい課題を具体的にしていくところから
    • レガシーシステムだと前提条件からギャップがある
      • モダンな環境であればモダンなo11yを適用できる
    • ユースケースを制限して解決することを絞ってo11yしていく
      • 例えば頻出する問い合わせに対応するためのログを仕込むとか
    • ユースケースを特定するために
      • 開発チームとの対話
  • これからやろうとしてること
    • ビジネスの成長サイクルが回せているかを知るためのo11y
    • どの最適化がどれくらいの効果を得たかの理解
    • 手動での対応も含めた追跡
    • サプライチェーン管理の部門も含めた議論

Observability文化はなぜ根付かないのか 〜よくある失敗とその回避策〜

佐野 浩也さん(ULSコンサルティング株式会社)

  • 技術 + プロセス + 組織 = 文化
    • ツールを入れただけなど一部分だけでは浸透しない
  • よくある失敗
    • ツール導入を急いでしまう
      • プロセスに組み込むことも踏まえて考える
    • 責任を決めつけてチーム連携ができない
      • 使えるものが活用できなかったり
      • どこかのチームの負荷が上がってしまったり
    • 共通言語がなく対話が成立しない
      • 立場や所属が異なると関心も異なる
      • 例えばレスポンス遅延と言われて考えることは立場によってさまざま
        • 場合によっては衝突してしまう
      • 事実を意味づけして問題合意
    • 失敗が隠蔽されて学びが促進しない
      • 予兆を検知したら隠さず共有し対処することが大切
        • アクションまでとる
      • 失敗や懸念を許容する風土

制約下の医療LLM Observability〜セキュアなデータ活用と専門家による改善サイクルの実現〜

保坂 桂佑さん(株式会社カケハシ)
https://speakerdeck.com/kakehashi/building-trust-in-medical-llms

  • 医療向けアプリでのLLM活用
    • o11yが難しい
      • 厳格なデータ保護
      • 高い出力品質の要求

医療システムのObservability向上のためのOpenTelemetry活用

山田 佑亮さん(株式会社ispec)

  • 医療DX
    • ITインフラがレガシーすぎる
      • インターネットにつながらない環境
    • 組織業務の硬直化
      • 業務の改善が進まない
  • CloudSail
    • 小型のサーバを病院においてもらってクラウドとつなぐ
    • 病院版AWSのような
      • EC2的なやつの上でアプリケーションを動かせる
    • 普段と同じPCで使えるように
      • 閉域のPCから使える仕組みがある
    • オンプレとクラウドのハイブリット環境でのオブザーバビリティが必要
    • 小型サーバを配っているのでそれらの中で起きた問題の取扱い
  • 閉域PCからクラウドへのアクセス
    • 小型サーバとクラウドの接続性監視
      • 双方向にヘルスチェック
    • リバースプロキシのリソース状況
      • 早めに検知してリソース調整できるように
    • Otel Collector
      • 小型サーバはk3s
      • ローカルコレクター
        • コンテナとホストの両方を収集してクラウド
      • ゲートウェイ
        • クラウド側でデータをまとめて受け取る
        • これがOtelPFにデータを送る
        • 直接送らずこれがいるのは先々の移行に強くなるように
  • サーバ上で動かすアプリ
    • アプリ提供ベンダーがテレメトリを確認できないといけない
    • 複数ベンダーのテレメトリが混ざらないように
    • ベンダー側がテレメトリのサンプリングやフィルタリングを制御できるように
    • ベンダー用のCollectorを一段挟んで各ベンダーへ送る

ピーク時165万スパン/秒に立ち向かえ!オブザーバビリティコストを効率化する ABEMA におけるトレースサンプリングの実践的事例

山本 哲也さん(株式会社AbemaTV)
逆井 啓佑さん(Datadog Japan)
https://speakerdeck.com/tetsuya28/abema-trace-sampling-observability-cost-optimization-f4d43a88-8257-4bc1-be03-5c9b2333c8da

  • トレースの保存
    • 全てを保存するのはコストに見合わない
    • 大量の正常系
    • ヘルスチェック
  • トレースのサンプリング
    • ヘッドベースサンプリング
      • 早い段階でサンプリング
      • 全体を精査しない
      • 割合でサンプリングしたり
      • 容易だけど重要なトレースが欠けてしまう可能性
    • テイルベースサンプリング
      • トレース全体を考慮してからサンプリング
      • エラーや高レイテンシーなら残すとか
      • どこかに集約してからサンプリングしないといけない
      • アプリやシステムの状況で要件が変わってくることも
      • -> DatadogなどSaaSに頼ることもできる
  • Datadogのトレースサンプリング
    • ヘッドベースサンプリング
      • パスごとに割合を設定できる
    • テイルベースサンプリング
      • エラーがあったらとか条件をUI上で設定
    • Datadogにデータさえ送ればいい感じにやってくれる
  • Abemaのオブザーバビリティ
    • マイクロサービスの複雑性が増していた
      • アプリのシグナルを関連付けたい
      • クラウドSaaSの情報も集約したい
    • Datadogを活用
      • 100以上のサービスへのAPM導入
    • リクエストが増加すると指数関数的にデータが増えてしまう
  • コストとオブザーバビリティの天秤
    • トレースを全部見るのは現実的じゃない
      • 必要なデータだけを安く見たい
    • 何をサンプリングするか
      • 対象
      • 種別
        • 失敗できるリクエス
          • レコメンドなどフォールバックがあるもの
        • 失敗できないリクエス
          • 課金など失敗できないもの
        • 成功か失敗か
        • レイテンシーがどれくらいか
    • サンプリングをどのようにするか
      • マイクロサービス - Datadog Agent - Otel Collector - Datadog
      • Datadogに送信する前
        • 取り込んだ量に対して課金されるのでこのタイミングで減らす必要あり
        • テイルベースサンプリング
          • マイクロサービスからは全部をDatadogAgentへ
          • DDOTでOtel Collectorへ
          • Otel Collectorでルールに応じてデータをドロップさせ送信
      • Datadogに送信した後
        • 送信後は事前に削ってるので基本残していく
        • Retention Filterで絞り込み
        • Intelligent retention filter
          • Datadogが判断した必要なトレースを残してくれる
    • サンプリングの導入でコストが10%以下になった

ゼロコード計装導入後のカスタム計装でさらに可観測性を高めよう

Eiji Maedaさん(Sansan株式会社)
https://speakerdeck.com/sansantech/20251027

  • BillOne
    • TypeScriptとKotlin
    • マイクロサービス20くらい
    • GoogleCloud
  • 自動計装とカスタム計装
    • 今はゼロベース計装とコードベース計装という
    • 前者は導入だけで勝手に送られる
    • 後者は自分で実装して送る
  • APM導入の経緯
    • アプリのレイテンシ悪化で問題が起きた
    • 数カ月かかって原因を突き止めた
  • 自動計装入れた後にカスタム計装をどこからやっていくといいか
    • 日々の運用で役立つところ
    • プロダクトで重要な機能
  • BFFでの計装
    • ユーザ情報を計装したい
    • 各FEからのアクセスが来るところがBFF
    • ユーザIDやルーティングなど
    • middlewareなどとして処理を挟めばOK
  • 特定のマイクロサービスでの計装
    • 検索機能の計装をしたい
    • 請求書を検索してそこから利用が始まるので重要な機能
    • レイテンシの悪化や検索の利用状況についてデータが何もないなどの問題があった
    • 検索のパラメータは大量すぎる
      • レイテンシに影響出そうな項目の当たりをつけてデータをとる
      • この例では日付の範囲が広いとレイテンシが悪化するという結果だった
    • ユーザが指定したデータをそのまま出力しても意味がなかった
      • 具体的な日付が見えても4/1でも7/1でも違いは小さい
      • 開始のみしか指定してないとか範囲が90日間とかそういう情報の方が有用
  • 非同期処理の計装
    • 受け取る方と送る方の両方
    • キューが100以上あってトピックが100近くある
    • 知りたいこと
      • キューが詰まってないかとか
      • どこに送ったか/どこから送られてきた
      • どれだけ時間がかかったか
    • 自動計装だけではトレースが途切れてしまう
      • HTTPのコンテキスト伝播は自動でやってくれてる
      • 非同期はやってくれてないかおら途切れてしまう
      • 自前で実装すればつなげられる

オブザーバビリティ成熟度モデルの企画から社内導入まで:複数サービスでの評価を通じた組織変革の軌跡

庭野 悟さん(合同会社DMM.com)

  • o11yを実践する中での課題
    • チーム感での理解や実践のばらつき
    • 知識や対応が個人に属人化した運用
    • 現状が把握できず改善の停滞
  • 成熟度モデルの設計
    • モデル設計の3原則
      • シンプル
      • 段階的
      • 比較可能性
    • CMMIに準拠
      • レベル1: 属人的
      • レベル2 :基本管理
      • レベル3: 標準化
      • レベル4: 定量管理
      • レベル5: 継続改善
    • 6項目をそれぞれ5段階で評価
      • データ収集と可視化
        • システムのデータを網羅的に収集しリアルタイムで可視化分析ができる能力
      • アラート最適化と障害対応
        • システムの異常を検知し対応を実現する能力
      • システムの信頼性管理
        • 障害対応復旧プロセスの整備と指標による改善を継続
      • 開発運用プロセスの整備と最適化
        • コード品質を維持したまま予測可能で安定したデリバリー
      • ユーザ行動の理解と最適化
        • ユーザの行動/ニーズを把握し改善を継続的に推進
      • 継続的な改善と最適化
        • モニタリング等による継続的改善をチーム組織で推進
  • 実践的な評価の導入
    • アンケートで自己評価
      • 個人の主観ではなくチームで議論した回答
      • 該当しない項目は無回答OK
  • レベル別の改善アクションプラン
    • 6項目の各レベルごとに次に行くには何をするといいかまとめてる
  • 導入後の課題
    • 改善の停滞
      • 優先度の問題
    • 継続性の課題
      • 継続する仕組みと長期的な改善サイクルがないこと
  • 導入後の変化
    • 共通言語ができた
    • 議論のきっかけに
    • データドリブンな改善
  • 評価の位置づけ
    • スコアの高低ではない
    • 現状の理解と未来を考えるための指針

オブザーバビリティと共に育てたID管理・認証認可基盤の歩み

高井 真人さん(株式会社カミナシ)
https://speakerdeck.com/kaminashi/the-journey-of-an-id-management-authentication-and-authorization-platform-nurtured-with-observability

  • カミナシのサービス
    • マルチテナント
    • それぞれのテナントで複数のサービスを使ってる
    • 認証認可は共通的に必要
  • 認証認可基盤の特性
  • Kalman Filter
    • 入力に対する出力
      • 真のシステム状態の時の真の出力がある状態で
      • システム状態を推測し推測の出力から誤差を埋めていくことで内部状態を推測できる
  • OAuthクライアント認証の性能低下の事例
    • ライブラリがDBアクセスを何度もしていて負荷が高い
    • ハッシュ計算でCPU負荷向上
    • ライブラリには手を入れたくないので外側で解決策を模索
    • ライブラリの計装が不十分なケースはローカルで手を入れたりプロファイラを駆使したり
  • サービスレビュー
    • 週次でレポートを作成し傾向の確認
      • パフォーマンス
        • 先週と比較
        • 長期的なトレンド
        • 問題が起きたエンドポイント
      • エラー
        • 想定がいエラー
        • 不要なエラー
        • パフォーマンスと関連するエラー
      • コスト
        • 先週と比較
        • 長期的な傾向
        • 特にコストの掛かるサービス
        • 対処を入れたサービス
    • チーム内で理解や勘所を継承していく

クロージングキーノート: これからのオブザーバビリティ(仮)

大谷 和紀さん(Cisco Systems)

  • カンファレンス振り返り
    • セッション25
    • 現地参加444名
    • オンライン視聴590名
  • セッション振り返り
    • オブザーバビリティの価値
    • 始め方と広め方
    • 効果的なオブザーバビリティ
    • AI for o11yとo11y for AI
  • これからのオブザーバビリティ
    • 人によって違う
      • 状況/コンテキストによる
    • ボトムアップ
      • 次に何ができそうか
      • 何を得られるか
      • どんな調整が必要か
    • トップダウン
      • 今の課題は何か
      • 解決できそうか
      • どんな調整が必要化

オブザーバビリティが育む開発者のシステム理解と好奇心

Toshiya Katoさん(LINEヤフー株式会社)
https://speakerdeck.com/maruloop/observability-for-the-system-understanding-and-curious-by-developers

オブザーバビリティの効果を可視化するIncident Response Metricsの実践

高村 成道さん(株式会社Topotal)
https://speakerdeck.com/nari_ex/observability-extending-into-incident-response

現場の壁を乗り越えて、「計装注入」が拓くオブザーバビリティ

Kento Kimuraさん(Datadog Japan)
https://speakerdeck.com/aoto/beyond-the-field-barriers-instrumentation-injection-and-the-future-of-observability

AIスパコン「さくらONE」のオブザーバビリティ

Yuuki Tsubouchiさん(さくらインターネット研究所)
https://speakerdeck.com/yuukit/observability-for-ai-supercomputer-sakuraone

OpenCensusと歩んだ7年間

田中 篤志さん(ウォンテッドリー株式会社)
https://speakerdeck.com/bgpat/opencensustobu-nda7nian-jian

エンタープライズBPMプラットフォームにおけるO11y

蒲生 廣人さん(Dress Code)
https://speakerdeck.com/gamonges_dresscode/entapuraizubpmpuratutohuomuniokeruo11y

LLMオブザーバビリティにおけるトレースの拡張

Yoshitaka Fujiiさん(LINEヤフー株式会社)
Shuhei Kawamuraさん(Kong K.K.)
https://www.docswell.com/s/shukawam/K74MX6-observability-conference-tokyo-2025

SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦

川崎 雄太さん(株式会社ココナラ)
https://speakerdeck.com/coconala_engineer/sre-x-manezimentoreiyagatiao-zhan-sitazu-zhi-hui-she-noobuzababiriteigai-ge-bizinesujia-zhi-toxin-lai-xing-woliang-li-sururiarunatiao-zhan

外接に惑わされない自システムの処理時間SLIをOpenTelemetryで実現した話

新 浩太朗さん(株式会社NTTデータグループ)
https://speakerdeck.com/kotaro7750/wai-jie-nihuo-wasarenaizi-sisutemunochu-li-shi-jian-sliwoopentelemetrydeshi-xian-sitahua




以上の内容はhttps://ozaki25.hatenadiary.jp/entry/2025/10/27/180658より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14