◾️はじめに
Databricks のハンズオンをやったので、メモ
目次
【1】Databricks Free Edition 1)使用上の注意 【2】Databricks Free Edition セットアップ 【3】Hello world 1)手順 【4】触ってみた感想・メモ
【1】Databricks Free Edition
* Databricks の無料バージョン => 詳細は、以下のサイト参照
https://qiita.com/taka_yayoi/items/33e9cfa7ca9ca9febe72
* Databricksノートブック と言って、 Jupyter Notebookのような感じで動かせる
1)使用上の注意
* 無料版なので色々と制限がある => 特に、複数のノートブックから右上の「接続」からサーバレスに接続した際、 実行時にMax Retried Errorが発生する場合があるため 使っていない場合サーバレスコンピュートを停止した方がいい
【2】Databricks Free Edition セットアップ
[1] 以下のサイトをアクセスする
https://www.databricks.com/jp/try-databricks
[2] [無料トライアル]-[クイックセットアップを続行]を選択 [3] 以下のいずれかを選ぶ * Google account * Microsoft account * Email <- 今回、こちらを選択。するとEmail宛にランダム文字が送られる
【3】Hello world
* 以下のサイトを参考にするといい
https://qiita.com/taka_yayoi/items/d45da4e3048b35152208
1)手順
[1] 以下のGithubから必要なファイルをダウンロードする
https://github.com/taka-yayoi/databricks_free_edition_tutorial
[2] Databricks Free Editionに接続
[3] [Connect]-[Serverless]を選択しサーバレスコンピュートを起動
[4] [Workspace]を選択し、[1]のファイルをインポートする
=> Windowsなら右クリックで[Import]を選択
[5] 後は以下を順にやっていく
* 0. My first Databricks.ipynb
* 1. Unity Catalog.ipynb
* 2. PySpark transformation.ipynb
* 3. ML Tutorial.ipynb
=> 「0. My first Databricks.ipynb」の「print("Hello Databricks!")」を
実行してみて「Hello Databricks!」が表示されたらOK
【4】触ってみた感想・メモ
* 以下の関連記事で扱ったdbt のデータリネージ(Data Lineage)が デフォルトでクリックだけで確認できる
dbt CLI ~ ドキュメント化 / dbt docs ~
https://dk521123.hatenablog.com/entry/2023/12/10/125512
より抜粋 〜〜〜 1)データリネージ(Data Lineage)とは * データ源泉(source)から現在地点までのデータ変遷のことで データ(テーブル)がどう結びついているを把握することができる cf. Lineage(リネージ) = 血統, 系統 〜〜〜