Data Engineering Study #29 今だから学びたいDatabricks徹底活用術 - connpass
こちらのイベントに参加してきたので、会の様子と感想を書いていこうと思います。
会の概要
以下、イベントページから引用です。
Databricks。Databricksは何が優れているのか、他のデータウェアハウスと何が違うのかを知りたい方も多いのではないでしょうか?
本イベントでは、Databricks社の桑野さんよりレイクハウスアーキテクチャやDatabricksの強みについて解説いただきます。
さらに、実際にDatabricksを活用するお二人に、それぞれの企業でのDatabricksの活用事例をお話しいただきます! 基礎から応用まで、今だからこそ知りたいDatabricksの最前線をお届けします!
会の様子
Databricksで完全履修!オールインワンレイクハウスは実在した!
最初にDatabricksとはなにか?という話がありました。Databricksは、オールインワンレイクハウスであると考えているということで、非構造化/構造化を意識せずにデータを保存することができるデータレイク+データウェアハウスの良さを出しながら、必要なすべての機能が揃っているデータハウスであるのがオールインワンレイクハウスと言える所以だという話がありました。
そのため、Notebookをはじめとした様々な処理をパイプラインで実行できたり、高性能・低コストなSQLとBIの実行基盤、MLOps、Unity Catalogといった様々な機能を有しているということです。
AI系の機能としてもAI/BIダッシュボードやAI/BI Genie、AI Builderなど多数出ているということです。
Databricksを使うことで、社内に存在する様々な形式のデータを一元管理することができたり、LLMエージェント作成時に開発プロセスを回す部品を全部そろえたりすることができたりするので、社内にある多数のデータを活用するのが有用なユースケースだそうでした。
人不足・時間不足を言い訳にせずDatabricks をうまく利用する
Databricksをクレンジング・エンリッチメント・半構造化データの構造化をするという用途で活用した話がありました。
まず、Unity Catalogを使うことで新規参画者が自走できるようにメタデータ管理したという話がありました。
次に、usage dashboard + カスタムタグを活用することでコスト管理を簡単にすることで、金銭コストが分かるようになったそうです。
出版社こそデータドリブンに! Databricksで叶える集英社の未来を創るデータ活用術
TROCCOとDatabricksを組み合わせた事例の紹介がありました。
TROCCOとDatabricksの連携としては、転送先/転送元コネクタとしての活用方法だったり、Self-Hosted Runner、SAP S/4HANA、CDC、Connector Builderといった機能に関して、簡単にどういう機能なのか?という話が出ていました。
会全体を通した感想
仕事でDatabricksと近しい関係性になったこともあって、普段参加しない毛色のイベントに興味があって参加をしてみたのですが、かなり色々知らない話が出てきたのと具体的な話が出てきて、何から勉強していくと良さそうかの道しるべができたのが非常に良かったです。