以下の内容はhttps://engineer.crowdworks.jp/entry/2025/12/21/114231より取得しました。


データ基盤の現在地(SnowflakeとRedshiftと、時々、Data Cloud)

データ基盤の現在地(SnowflakeとRedshiftと、時々、Data Cloud)

この記事は クラウドワークス グループ Advent Calendar 2025 シリーズ1の21日目の記事です。

こんにちは。去年は全社横断でデータ連携する仕組みを作ってましたが、今年はデータ基盤作りをしてる高橋です。

今年からSnowflakeを使い始め、Snowflake Fundamentals トレーニングを受講したり、SNOWFLAKE WORLD TOUR TOKYO に参加したりとSnowflakeへの関心が高まっています。

弊社では、Amazon Redshift + Redashの構成で、クラウドワークス事業で利用するためのデータ基盤が構築されており、現在も継続してデータ分析に利用しています。全社向けのデータ基盤としてSnowflakeを活用することになり、日々Snowflakeの活用方法を学んでいますが、実はもう一つSalesforce Data Cloudというデータ基盤(CDP)を導入しており、こちらも活用しています。

今回は、三つのデータ基盤(SnowflakeAmazon Redshift、Salesforce Data Cloud)の役割やデータ転送のアーキテクチャについて、今年一年をふりかえりながら書いていきたいと思います。

目次

ツール導入について

各ツールの役割について、現状は以下の通りとなっています。

各ツールを導入した時期を並べると、以下の順になります。

  1. Amazon Redshift
  2. Salesforce Data Cloud
  3. Snowflake

全てのツール導入に直接関わっているわけではないですが、個人的な推察も交えてツール選定の判断を考えてみました。

1. Amazon Redshift

クラウドワークスのサービスはAWS上で構築されている点から、AWSエコシステムとの親和性の高さや、データ転送する際のレイテンシやネットワークコストの効率の良さから、初期のDWHとしてAmazon Redshiftが選択されたと推測しています。

2. Salesforce Data Cloud

ビジネスサイドのCRMツールをSalesforceに統合する施策があり、Salesforce内のデータと組み合わせることや、Salesforce内の機能との親和性の高さから、顧客データの活用を目的とするCDPとしてSalesforce Data Cloudが選ばれたと考えています。

3. Snowflake

Redshiftの運用負荷やスケーラビリティの課題、全社的なデータ活用促進の必要性から、以下の点を評価して導入しています。

  • SaaSであること: インフラ管理の手間を削減でき、運用負荷が少なく、開発に注力できる点
  • 使いやすさ: シンプルなUI、自動化機能が多く、導入が容易で柔軟性が高い点
  • 市場の成長性: Snowflakeのシェアが拡大しており、将来的な技術の陳腐化リスクが低い点

Snowflakeの導入経緯については以前のブログでも紹介しているため、参考までに https://engineer.crowdworks.jp/entry/2025/10/31/155012

データ転送アーキテクチャについて

三つのデータ基盤がデータ分析の枠を超えて、どのようにデータを共有し、マーケティングの施策などでデータ活用しているかをデータ転送のアーキテクチャに着目して説明します。

データ転送アーキテクチャについて

主要なデータ転送の流れとポイントは以下の通りです。

1. データベースからのデータ転送

既存のDWH(Amazon Redshift)に依存せず、データの柔軟な管理と新しいデータ基盤への統合を見据え、データベース(Amazon Aurora MySQL)のレプリカからデータを取得し、Amazon RedshiftとAmazon S3へ転送しています。

2. Snowflakeによるデータ連携の最適化

データパイプラインプロセスのコスト削減のため、Amazon S3に転送されたデータは、Snowflakeの外部テーブル機能を利用してAmazon S3上のファイルを直接参照しています。

3. Salesforce Data CloudからSnowflake

Salesforce Data CloudはZero Copy Data Federationという技術を利用してSnowflakeから参照しています。

Zero Copy Data Federationのメリット

  • データの二重管理が発生しない: Snowflake内の最新データをそのまま参照できる
  • データパイプラインプロセスのコスト削減: 転送・ETLのコストや手間が不要

Snowflakeにして良かったところ

今年一年Snowflakeを活用してみて、個人的に良かったと感じた点をまとめます。

1. Snowsight(Snowflakeウェブインターフェイス)の使いやすさ

データウェアハウスやデータベースを操作するとき、CLIでの操作や別途GUIツールの用意が必要になることが多いですが、Snowflakeは契約時からSnowsightが使えてWebブラウザからデータウェアハウスの操作が完結します。

  • データ確認: データベースエクスプローラーからデータベースの定義を確認でき、データプレビューでデータの中身を俯瞰して知ることできます
  • モニタリング: ユーザーごとにクエリ履歴を確認でき、クエリプロファイルからはスキャン内容を確認できるので、パフォーマンス改善に役立ちます
  • プロジェクト: ワークスペースからSQL文を記述して実行することで、探索的なデータ分析を容易に行えます
2. AI機能の活用

Snowflake内にAI機能は多くありますが、個人的に気に入っているのはSnowflake Copilotです。

  • Snowflake Copilot: Text-to-SQL機能で、自然言語で質問すると、取得したいデータのSQLを生成してもらえます。データ分析の民主化や効率化に大きく貢献すると期待しています

Snowflake導入初期の負債

初期の負債として反省点もあります。 ツール活用を急ぐあまり、アクセス制御のベストプラクティスを意識せず、ACCOUNTADMIN ロールで構築を進めてしまった点です。 その結果、権限周りの問題で障害が発生してしまったり、後から細かく権限を設計し直す際に複雑さが増し、容易に変更できていない部分が残っています。

まとめ

弊社で利用している三つのデータ基盤(SnowflakeAmazon Redshift、Salesforce Data Cloud)についての連携事例を書きました。今後はツール導入時の課題や背景を尊重しつつ、より効率的なデータ活用を目指してデータ基盤を構築することでビジネス成長に貢献していきたいと考えています。




以上の内容はhttps://engineer.crowdworks.jp/entry/2025/12/21/114231より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14