以下の内容はhttps://ozaki25.hatenadiary.jp/entry/2024/08/07/203243より取得しました。
Datadog APM による性能改善から始める技術的負債解消
Datadogで性能改善
- レガシーソフトウェアの改善
- レイテンシを計測して改善する
- 改善対象
- Dashboard整備
- グラフをいい感じに
- APMと連携
- 不要なクエリを見つけて削減
- クエリ回数が無駄に多いの削減
DMMの動画SREにおけるDatadogの活用について
動画サービスでのDatadog活用
- 社内でGoogleCloudやk8sを使うのが初めてだった
- 初挑戦の技術が多くメトリクスを1つずつ集めてナレッジをためていった
- Google Cloud Integration
- メトリクス取得のタイムラブ
- Cloud Monitoring自体が1分ペース
- Redis周りで使いづらいところが
- FEチームへの布教
- CoreWebVitalsの通知をリリース後に必ず確認するように
- Notebookの活用
- テンプレートを活用して誰でもレポートを書けるように
- メトリクスのグラフを画像で残せる
Trace Queriesの活用でfreee会計のDB負荷削減のきっかけとした話
DB負荷改善
- 長年運用していて意図せずn+1問題が起きていた
- どのAPIで頻発しているかわからなかった
- DB負荷につながっていた
- 他のクラスタからn+1で飛んでくると大きすぎてTraceを見る画面を開くことすらできない
- DatadogのTrace Queries
- 2024/2頃にリリース
- span間の依存を含めて検索できる機能
- A,Bという親子関係のspanでAとB両方でエラーといった検索ができるようになった
- Bに10sかかってるAのSpanといった集計もできるようになった
- 自動でサーバを監視する機能
- 自分で登録しなくても条件に当てはまるものを見てくれる
- yamlにannotationを書くことで設定できる
DatadogでPHP/Laravelアプリケーションを監視する
Laravelの監視
- DatadogでLaravelを監視
- Datadog Agent入れる
- PHP拡張を入れる
- 環境変数を追加
- Datadog APMを入れる
SLOの導入
- ユーザに与える影響が見えない状況
- SLOを策定
- ダッシュボードにも反映
- SLOを関係者が来にするようになった
- エラーバジェットが消費されるとエンジニアがすぐに反応するようになった
AWS Summit JapanのDatadogブースに立ち寄って得られたAPM活用
- Datadog APMの活用
- n+1を簡単に見つけられる
- ドメイン単位でのgroup byができる
- Dashboardへエクスポートできる
- URL単位でのgroup by
- resource_nameでのgroup by
- ユーザに影響のある部分を見つけてそこに対してSLOを設定するといい
以上の内容はhttps://ozaki25.hatenadiary.jp/entry/2024/08/07/203243より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます
不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14