以下の内容はhttps://ozaki25.hatenadiary.jp/entry/2025/02/04/205349より取得しました。


「DataOps Night #6」に参加してきました

マルチデータプロダクト開発・運用に耐えるためのデータ組織の遷移

株式会社ナウキャスト muguruma さん
https://speakerdeck.com/mtpooh/evolving-data-org-architecture-for-multi-product-development

  • 2022年頃までチームごとにデータ担当を持っていた
    • スピードは維持しやすかったが車輪の再開発なども起きてきた
    • 横のつながりのためプラットフォームチームに変更
    • 主体はストリームアラインドチームとして動く
  • その後データとプロダクトが増え続けている
    • データソース20くらい
    • ストリームアラインドチームごとのドメイン知識の共有が難しくなる
      • データを組み合わせるところがビジネス価値
    • データ固有の名寄せなどはサイロ化
    • ビジネスメンバーもデータにアクセスする機会が増える
    • プラットフォームの充実化へ
    • OpenMetadata導入でデータを発見しやすいように
      • メタデータは人が入れないといけないので運用の仕組み作り
  • dbtからDataContractへ
    • dbtでは不十分なケースが出てきた
    • DataContractを導入へ

自動と手動の両輪で開発するデータクレンジング

株式会社estie Ryosuke Lin さん

  • データパートナーによって仕様が様々
    • 同じようなカラムでも内容が異なっていたり
    • 自由記述になっててスラッシュ区切りで複数値入ってるとか
    • データの更新頻度
    • データの仕様が変わることも
    • これらを組み合わせることでデータを充実させていく
  • データを名寄せする難しさ
    • 表記揺れやパートナーの入力ミスもある
    • 同じ名前の建物が隣にあったりということもあるのでちゃんと確認しないと分からない
    • 自動化が難しく人の目を入れないとどうにもならないところも多い
    • 自動化と手動をものによって使い分けて対処
  • データクレンジングパイプライン
    • 表記揺れのある重複データを名寄せ
    • データパートナーの追加/削除対応
    • Snowflake上で管理
    • 毎日パイプラインを回してincremental modelで対応
    • 過去データの追加や削除の場合はfull refreshが必要
      • 手動入力や名寄せ結果は壊れないように対象から分離
  • 自動名寄せ
  • 手動名寄せ

データ基盤の成長を加速させる:アイスタイルにおける挑戦と教訓

株式会社アイスタイル tsudash0 さん

  • 新規データ基盤の構築
    • 2023年ころから1年超で作り変え
  • 旧基盤の課題感
    • データの再利用性が低い
    • どこにどのデータがあるか分かりづらい
    • 運用整備の時間が取れない
  • 改善事項
    • データ提供速度
    • データの扱いやすさ
    • データの品質
    • データの検索性
  • 新データ基盤
    • オンプレからクラウドへの移行もあわせて
    • 400以上のテーブルを新基盤へ
    • 手動リリースをやめて自動化
    • Prefectの導入



以上の内容はhttps://ozaki25.hatenadiary.jp/entry/2025/02/04/205349より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14