マルチデータプロダクト開発・運用に耐えるためのデータ組織の遷移
株式会社ナウキャスト muguruma さん
https://speakerdeck.com/mtpooh/evolving-data-org-architecture-for-multi-product-development
- 2022年頃までチームごとにデータ担当を持っていた
- その後データとプロダクトが増え続けている
- dbtからDataContractへ
- dbtでは不十分なケースが出てきた
- DataContractを導入へ
- OpenAPIのようなスキーマの定義
自動と手動の両輪で開発するデータクレンジング
株式会社estie Ryosuke Lin さん
- データパートナーによって仕様が様々
- 同じようなカラムでも内容が異なっていたり
- 自由記述になっててスラッシュ区切りで複数値入ってるとか
- データの更新頻度
- データの仕様が変わることも
- これらを組み合わせることでデータを充実させていく
- データを名寄せする難しさ
- 表記揺れやパートナーの入力ミスもある
- 同じ名前の建物が隣にあったりということもあるのでちゃんと確認しないと分からない
- 自動化が難しく人の目を入れないとどうにもならないところも多い
- 自動化と手動をものによって使い分けて対処
- データクレンジングパイプライン
- 自動名寄せ
- 手動名寄せ
データ基盤の成長を加速させる:アイスタイルにおける挑戦と教訓
株式会社アイスタイル tsudash0 さん
- 新規データ基盤の構築
- 2023年ころから1年超で作り変え
- 旧基盤の課題感
- データの再利用性が低い
- どこにどのデータがあるか分かりづらい
- 運用整備の時間が取れない
- 改善事項
- データ提供速度
- データの扱いやすさ
- データの品質
- データの検索性
- 新データ基盤
- オンプレからクラウドへの移行もあわせて
- 400以上のテーブルを新基盤へ
- 手動リリースをやめて自動化
- Prefectの導入