本記事はニーリーアドベントカレンダー2024の5日目の記事です🎅

はじめに

こんにちは。Analyticsチームの上田です。当チームは、2024年3月にチームの概要を紹介するnote記事「データ分析の宝庫を前にして〜Analyticsチーム1年目の取り組み～」を公開しました。その記事ではチーム発足後間もないデータ基盤の構成を紹介しました。それが図1です。

当時は連携しているデータソースがZendeskのみで、極めてシンプルな構成でした。その後、事業や社内のニーズに応える形で様々なデータソースが増えていき、当時とは大きく異なる構成となりました。カジュアル面談等では最新の構成をご紹介しているのですが、Web上には公開していませんでしたので、この機会に公開したいと思います！

データ基盤の構成 - 2024年12月時点

図2に最新の構成を示しました。矢印の方向にデータが流れているので、左から右に読み進めると理解しやすいかと思います。

構成の背景

まず、そもそもデータ基盤の構築に至った主な背景は以下です。

Park DirectのDBだけでなく、ZendeskやHubspotといった周辺ツールのデータを組み合わせた分析のニーズが高まったこと
Park Directに関するヒストリカルな分析のニーズが高まったこと(Aurora上のデータの多くはその瞬間の状態のみ保持しており、ヒストリカルに保持されていない)

ETL: TROCCO

ETLツールには、以下のような背景でTROCCOを利用しています。

Analyticsチームは人員が少ない(当時2名、現在4名)のに加え、分析からデータインフラ整備まで広く担当するため、ETLに割ける人的リソースが少ない
ETLに割ける人的リソースが発生したら、むしろデータ分析や分析を加速する環境整備(データマートやViewの整備など)にリソースを割きたい

TROCCOにはカラムの変更検知機能・テーブルの増減検知機能・転送Job成否のSlack通知機能があり、これらによって少人数でも無理なくデータ基盤を運用することができています。また、TROCCO起因の転送Jobの失敗も一度も発生しておらず、信頼性が高いです。 2024年11月には、図2中央下部に示した「データ基盤→Park DirectのDB」のリバースETLを開始したのですが、こちらもTROCCOによって比較的容易に実現することができました。

ただし、一部のETLではTROCCOを利用していません。Google Analytics・Search ConsoleはBigQueryリンクという機能で直接BigQueryにデータを転送できるため、TROCCOを利用していません。また、月次KPI集計に必要な、データベースの正確な時刻の断面(例えば月初1日9時時点など)の転送には、BigQuery Strage Transfer Serviceを利用しています。これは、TROCCOがその用途に適していないためです。

データマート: BigQuery(Scheduled Query)

データマートの作成はBigQueryのScheduled Queryで実施しています。これには、以下のような背景・意図があります。

現時点ではデータマートの構成がシンプルなため、Scheduled Queryで事足りている
この部分にTROCCOを利用しないことで、TROCCOのクレジットを節約する

DWH: BigQuery

DWHにはBigQueryを利用しています。主な背景は以下です。

BigQueryの利用経験のあるメンバーが多かったこと
金額・運用コスト面で当時の比較対象より優れていたこと

連携するデータソースが増えた現在も、BigQueryは非常に低い金額コストで安定的に運用できています。WebコンソールのUI以外に、これといった不満はありません。

BIツール: Redash

BIツールにはRedashを利用しています。主な背景は以下です。

データ基盤の導入前から導入されていたBIツールであり、利用中のクエリやダッシュボードが多数存在し、安定的に稼働していたため、廃止する動機が特になかった
BigQueryとの連携が容易かつ、スキャンデータ量を制限できるため、Redashを介せば安全にBigQueryを利用できる
一部の業務ではRedashのアラートを業務開始のトリガーとして利用しており、脱Redashする場合は代替ツールを探す必要があるが、当時は手軽なツールが見当たらなかった

また、ビジネスチームはRedashの抽出結果をスプレッドシート上で加工・共有することが多いため、図2右上に示した「Redash取り込みツール」という独自ツール(SREチーム提供)を利用し、スプレッドシートに簡単に書き出せるようにしています。

現在の課題と今後の改善予定

データソースレイヤーの主な課題

データソースレイヤーの課題は、連携するデータソースの拡充です。特にTROCCOがコネクタを提供していないデータソースとの連携のニーズが高まっているため、TROCCOのHTTP(S)コネクタを利用して対応したいと考えています。

データ基盤レイヤーの主な課題

脱BigQuery Scheduled Query
- 現行の仕組みが複雑化する前に、TROCCOのワークフロー機能やDataformといった柔軟性の高い仕組みに移行する
ヒストリカルデータ蓄積の効率化
- TROCCOの転送モード「UPSERT(MERGE)」を活用する
データマート/Viewの充実化
- KPIが事前計算されたデータマート/Viewを整備し、集計コスト・ミスを減らす
データ転送の頻度向上
- リアルタイム性が求められるデータ抽出・分析に対応できるようにする

データ活用レイヤーの主な課題

脱・Redash一強体制
- BigQueryデータキャンバス・Gemini in BigQuery・Gemini in Looker(Studio)など、プロンプトベースでデータにアクセスできるUIを提供し、SQLを書けなくても基本的なデータ抽出・分析ができるようにする
脱・Redash取り込みツール
- データ基盤でできたことにより、スプレッドシートはBigQueryに直接接続できるのでそちら変更する

データ分析面の課題にも触れたいところですが、それはまた別の記事にしたいと思います！

おわりに

本記事では、2024年12月現在のPark Directのデータ基盤の構成・背景・課題をご紹介しました。Analyticsチームは現在も絶賛採用中です。もしご興味をもっていただけた方は、お気軽にカジュアル面談をお申し込みください！

次回のAnalyticsチーム発信の記事では、「データ基盤→Park DirectのDB」のリバースETLの詳細をご紹介したいと考えています。

ここまで読んでくださり、ありがとうございました。アドベントカレンダーはまだまだ続きますので、よろしくお願いします！🎄