はじめに

こんにちは！データサイエンティストの川邊です。普段は医療・ヘルスケア領域の案件やSaaS利用促進に関わるデータドリブンな意思決定支援を行っています。

タイトルの通り、最近はデータユーザーの視点からアプローチするデータ整備に取り組んでいるのですが、はじめて上司から「データ整備やってみない？」と言われた時は、「・・・部署異動ですか？」と思ったくらい理解できていませんでした。0からキャッチアップしていく中で、データ整備で重要とされる「普段からデータを活用しているデータサイエンティストやアナリストが上流部分の設計や要件策定に携わることが必要」という考え方を知り、私自身もその必要性を強く感じるようになりました。医療データを扱うカケハシならではの「上流・下流両方の視点からデータ整備を行う必要性と面白み」が少しずつ見えてきており、その点についてお話しできればと思っています。

医療ドメインに向き合うカケハシのデータ基盤

カケハシではDatabricks上でデータ基盤を構築しています。
日々施策の効果検証や意思決定支援にデータが活用されており、そのような活動を支えるデータ基盤の整備が現在進行形で進んでいます。一定の領域では既に整備が進んでおり、データの活用環境は整いつつあります。

医療というドメイン上、下記のような観点でデータ基盤構築の難易度が高くなっています。

法律・規制の複雑さ：個人情報・要配慮個人情報の保護
データの多様性と複雑性：多数のデータソースと統一化されていないフォーマット
データ品質の課題：欠損、表記揺れ、非構造化
などなど

そんな高難易度な条件のもと、いつもユーザーとなる我々エンジニアがストレスなくデータを使えるよう整備してくださっているデータ基盤チームやプロダクト開発チームの皆さんには日々感謝です。足を向けて寝ることはできません。

難易度の高い要求のもと多種多様なデータを整備するには、一度にすべてを使える状態にすることは不可能です。ちなみに使える状態とは、以下のような点が担保されていて、使用するうえで「？」が生じない状態だと考えています。

匿名加工や構造化といった必要な前処理が施されている
メタデータが整備されている
SSOT(Single Source of Truth)が担保されている

優先度の高いデータから先んじて整備を進めていますが、まだ整備が届いていない領域も存在します。現在は、特に顧客・ビジネスサイドの関心が高い領域から段階的に整備が進んでおり、分析や施策検討に活用しやすいデータが増えています。一方で、分析ニーズが現状では低い、あるいは前処理コストが高いという理由から活用が後回しになっているデータもまだまだ多数あり、こういった領域は今後整備を進めていく必要があります。

データ活用ニーズの拡大と、複雑な前処理が求められる新たな整備領域

これまでのデータ分析は、既に構造化が進んだ領域での効果検証や行動変容分析など、比較的整ったデータを活用する取り組みが大部分を占めていました。しかし近年では、より多面的な価値創出を目指して、これまで活用の主戦場ではなかったデータを掛け合わせた分析ニーズが高まりつつあります。
そうした新たなデータの多くは、整備の優先度が低かったために構造化が不十分であったり、表記揺れやフォーマットのばらつきなど、前処理コストの高い状態で蓄積されています。結果として、以下のような課題に直面しています。

下流での（ときに複雑な）データ前処理が必要になり、ビジネスサイドからのデータ抽出依頼のコストが高くなっている。
ビジネスサイドからのデータ抽出依頼に対して、期限内に複雑な前処理に完全対応することは難しく、抽出結果に対する定義や解釈のすり合わせに高いコミュニケーションコストが発生する場合がある。
データの前処理に時間を要することで、多方面のチームにデータドリブンな意思決定サポートを提供するというチーム本来のミッションに十分時間を割けていない。

業務の生産性を向上する、アウトプットのクオリティを上げる、リソースを確保してあるべき姿で価値を発揮する、など様々な点において、データ基盤の中身を見直し、整備に本格的に向き合うタイミングに来ていると感じています。

もちろん、一度前処理ロジックを構築してしまえば、下流側で都度適用することで一時的には対応可能です。しかし、下記のような理由から、プロセッシングレイヤーに整備内容を還元し、基盤レベルでデータをクリーンに保つことが重要だと考えています。

当該テーブルやカラムは他チームでもニーズがある可能性があり、特定のエンジニアだけが前処理ロジックを適用してデータを利用できる状態よりも、誰もがクリーンなデータから示唆を得られる状態が望ましい
DatabricksでもLLM探索やエージェントモードの実装が日々進んでおり、これらの機能の恩恵を十分に受けるためにもカタログ内のデータをクリーンに保つ（加えてメタデータを充実させてテーブルの解釈性を上げるなど）ことが必要になる

データサイエンティストがデータ整備に入り込む意義

前述のように、近年のデータ活用ニーズの拡大に伴い、構造化されていないデータや前処理コストの高いデータを扱う機会が増えています。その結果、下流での高コストな前処理やビジネスサイドでの解釈にかかる負担など、あらゆる側面で課題が生じています。
こうした状況から、一般論としてよく言及される「データサイエンティストやアナリストが上流部分の設計や要件策定に携わることが必要」ということを肌で感じており、医療ドメインのデータを扱うカケハシならではの意義として次の3点が挙げられると考えています。

個別ユースケースと横断的視点で整備優先度を決めることができる

データサイエンティストやアナリストは、日々ビジネスサイド支援や経営判断に向けて多様なデータを扱っており、「どのデータのニーズが高いか」「どのデータが使いづらいか」「どんなデータがあれば新しい分析ができるか」といった課題をいち早く把握できます。こうした利活用の現場感をもとに、データ基盤チームやプロダクト開発チームと連携しながら、整備の対象や方針を正しく決められることが大きな強みです。

加えて、データサイエンティストは複数のチームを横断して支援する立場にあるため、現場のユースケースだけでなく、横断的な視点から整備の優先度を判断し、処理の標準化や共通化を進めることが可能です。特に医療ドメインではデータ形式や入力方法が多様で、表記揺れや非構造化などの課題が生じやすく、整備対象が膨大になりがちです。だからこそ、この「現場感 × 横断的視点」の両輪が、整備リソースを最も価値の高い領域に集中させ、データ基盤全体の実効性を高める鍵になります。

分析を必要とする複雑な前処理に対応できる

ローデータの多様性により、プロセッシングレイヤーで必要となる前処理は多岐にわたります。
データストラクチャリングやデータクレンジング、医療分野で重要な匿名加工に加え、表記揺れの激しいデータの正規化や、共通IDのない状態でのデータマッチングなど、深い分析がなければ対応できない複雑な前処理も存在します。こうしたケースは、データサイエンティストが特に強みを発揮できる領域です。

例えば、足元で扱っているデータでは表記揺れが激しく、本来20〜30のカテゴリに分類できる内容にも関わらず、フリーテキストに近い形式によりユニーク数が1万を超える状態です。このような状況では単純な変換では対応できず、精度の高い正規化や分類が必要になります。

ユースケースだけでなく非機能要求も踏まえて総合的にHowを選択できる

複雑な前処理では、「どうやって処理するか」の選択も重要です。単に集約するだけでなく、その方法は用途や運用状況によって異なります。
1万件のユニークデータをいきなり20〜30にマッピングするのは情報損失が大きく、乱暴な対応です。そこで、段階的に整備・集約することが有効になります。具体例は以下の通りです。

不要な情報を落としただけのローデータに近いレイヤー（1000〜3000程度のユニーク数）
ある程度まとまりを持たせた中間的なレイヤー（50〜100のユニーク数）
最も集約されたレイヤー（20〜30程度のユニーク数）

さらに、Howの選択は精度だけでなく、処理コスト・処理時間・運用負荷・汎用性といった非機能要求を踏まえる必要があります。例えば、ルールベース、埋め込みベクトルによる類似度、LLM活用など、多様な方法が考えられます。データサイエンティストはこれらを総合的に評価し、最適な前処理方法を選択できる立場にあります。

データメッシュアーキテクチャにおける本活動の位置づけ

カケハシではデータメッシュを採用し、各ドメイン単位で分散的にデータ整備や分析が可能な組織体制とアーキテクチャを構築しています。そんな中でのこうした中央集権的な動きはデータメッシュの考え方と一見相反するもののように見えるかもしれません。しかし我々は、今のカケハシが置かれた状況において、このような動きが全社的なデータ利活用を加速させるものになると考えています。
カケハシがデータメッシュを採用しているのは、現時点で複数のドメインでプロダクトを展開しているためです。各ドメインに紐づくデータ基盤の統括的な管理・運用を中央のデータ基盤チームだけで担うのは負荷が高すぎるため、各ドメインで分散して管理・運用をしています。医療データの性質上、利活用できる状態に至るまでの前処理コストが高くなるため、各ドメインでは未整備の領域が一部残っており、データ活用推進のために一部領域のデータ整備を進めていく必要があります。
このような状況下では、分散化を意識しすぎると整備や活用が進みにくくなる課題があります。具体として、下記のようなケースです。

一部のドメインで顕在化した課題や解決策が他のドメインで活かされない
各ドメインでデータ活用をしたくてもそのケイパビリティを持つ人が十分おらず利活用が進まない

このような課題を解消するために、データサイエンティストが中央の立場から整備を主導し、各ドメインに横展開していく取り組みが重要です。一見すると中央集権的な動きに見えますが、これはあくまで「分散的なデータ活用を加速させるための布石」であり、データメッシュの理念を現実的に機能させるためのアプローチです。

将来的にこんな基盤にしたい

現在では、直近で分析ニーズが高まっている未整備のデータに対応していますが、並行して現状の課題調査も進めています。今後は、ニーズが出てきそうだがまだ活用できていないデータを洗い出し、どうすれば使えるようになるのかを整理しているところです。まだまだ動き出したばかりで目に見える成果には至っていませんが、将来はこうした取り組みを通じて、理想的な運用を実現できたらと常々考えています。

理想の基盤像としては、まずデータウェアハウスとメタデータの整備によって、誰もが必要な情報をすぐに見つけられる環境を構築することです。
こうした基盤が整うことで、データサイエンティストはデータマート作成や分析・モデリング・ダッシュボード構築を効率的に進められるようになり、分析支援の質とスピードを大きく向上させられます。
同時に、ビジネスサイドの非エンジニアの方々にも大きな恩恵が生まれます。LLMがテーブル内の情報やテーブル間の関係性を高精度に解釈できるようになるため、専門知識がなくてもLLMを活用することで自律的にデータを探索・分析できるようになります。

このように、整備されたデータ基盤は単なるデータの集積にとどまらず、組織全体のデータ活用の流れを変え、セルフサービスモデルの実現を後押しします。
結果として、非エンジニアの方々でも直感的にデータ抽出や分析が可能となり、各チームが主体的にデータ活用を推進できるようになります。

こうした取り組みは一朝一夕では実現しませんが、データサイエンティストとして、ユーザーサイドから積極的にデータ整備に関わり、確実に前進していきたいと考えています。

0から始める基盤づくりの向き合い方

読んでいただいている方の中で、「今はデータ分析を担当しているけどこれからデータ分析基盤に関わっていく」という方もいらっしゃるかもしれません。私自身もともとはデータ基盤の知識がない状態から始めていますので、どのようにキャッチアップしていったかを簡単にお伝えして、少しでも参考にできそうな部分があれば良いなと思います。

データ整備に関わる前は、データ基盤について「ふわっと聞いたことあるなあ」くらいでしか分かっていなかったため、下記の書籍から知識をインプットしました。

最初に読んだ本ということもあり、データ分析基盤とはなんぞや？は大体この本でインプットしました。活用されるデータ基盤構築のベストプラクティスについて丁寧に書かれています。データ基盤を育てていくための組織のあり方を知れたことで、データサイエンティストとしての貢献の仕方が具体的にイメージできるようになりました。
次にこちらを読みました。データレイクとは？から構築・運用の仕方まで広くカバーされています。後半にハンズオンの内容もあり、操作画面のスクリーンショットや詳細な解説もついていて網羅的・体系的に理解することができます。理論と実践の橋渡しができるのでチーム横断的なコミュニケーションがしやすくなったと感じています。
直近ではこちらを読みました。整備/運用/活用の全方向で非常に網羅度合いが高く、読了してからも辞書的に活用しています。どれも参考になる内容ばかりですが、個人的にはデータ活用の民主化につながる「セマンティックレイヤー」「セルフサービスモデル」の考え方が、弊チームのみならず全社的なデータ活用の加速と課題解決に大きく貢献できると感じ、興味深かったです。

これらの本で知識をインプットした後は、実際に手を動かすことで身に馴染ませたり、自分なりの解釈に繋げたりしています。
例えば、今の時点で「このデータもっと使いやすい形だったらなあ」と思うデータがあれば、データの生成過程を見にいってみたり、メタデータの整備状況を確認してみたり、こうあるべき！に対してどこにギャップがあるのかを考えるようにしています。

また、データ基盤チームの方と定期的にお話をさせていただいているのですが、これが私にとってとても学びのある、ありがたい時間になっています。現時点での整備の方針や、自分が考えている「こんな運用ができたらいいと思うけどどう？」に対して、他チームとも横断的にデータ基盤のことを考えている視点から評価をいただけます。

さいごに

整備された環境を活用して分析するだけでなく、データ活用全体の流れに広く携わっていくのがデータサイエンティストのあるべき姿だと考えるようになりました。データ整備のハードルが高い医療ドメインにおいては、なおのこと上流・下流両方の視点でのアプローチが必要です。

整備されたデータ基盤は、特定のチームだけでなく全社に価値をもたらします。業務の生産性向上やアウトプットの品質改善といった即時的な成果が生まれ、多くの部署やチームが主体的にデータ活用を推進できる環境が整います。それによって解放されたリソースは、組織全体の新たなチャレンジや改善につながります。こうした好循環を生み出し、組織全体の価値を最大化するチームの実現に貢献できるよう頑張っていきたいです。

カケハシで一緒に働きませんか？

そんなカケハシでは、データ活用をさらに加速させるためアナリティクスエンジニアをはじめとした仲間を募集しています。
データ整備や分析環境の改善を通じて、現場の意思決定を支える仕組みづくりに興味のある方は、ぜひご連絡ください！

ランキング参加中

プログラミング