
この記事は、Sansan Data Intelligence開発Unitブログリレーの第4弾です。
はじめに
技術本部 研究開発部の小松です。Data Direction Groupに所属し、社内外のデータ活用推進に従事しています。最近は新プロダクトSansan Data Intelligence(SDI)の立ち上げに注力しています。
SDIでは、プロダクトの立ち上げ段階からデータサイエンティストで構成されるチームが参画しています。本記事では、SDIの現場でデータサイエンティストチームが実際にどのように動き、事業貢献しているかを紹介します。
プロダクト立ち上げ期にデータサイエンティストは必要なのか?
プロダクト立ち上げ期のデータサイエンティストの役割について、このテーマの先駆者であるサイバーエージェントの藤田 光明氏の取り組みや考え方は大いに参考になります。本稿の内容も藤田氏の発表内容に大きく影響を受けています。
プロダクトの立ち上げ期に、データサイエンティストは必要なのか? この問いに対し、もしデータサイエンスの役割を「既存の数値を数%改善するための高度な分析・検証」と定義するならば、その必要性はまだ高くありません。0→1のフェーズでは分析すべきデータ量も少なく、統計的に有意な改善を繰り返す段階ではないからです。
しかし、私たちはデータサイエンスという言葉をより広く捉えています*1。このフェーズで真に求められているのは、整えられたデータを分析するスペシャリティだけではなく、データという資源に対して総合的に格闘できる人材です。
- 受注を生むために必要なデータ抽出・予測を行う
- プロダクトの価値向上に寄与する分析結果を提供し、意思決定の質を上げる
- 将来価値を生むデータ生成過程そのものを設計する
このように分析という枠に留まらず、データがビジネス価値に変わるまでの全プロセスのエンジニアリングに関わり、事業を牽引すること。それが、SDIにおけるデータサイエンティストの役割と考えています。
SDIのデータサイエンティストチームが具体的にやっていること
SDI導入提案を支援するレポート作成アプリケーションの開発
SDIの導入提案を支援するため、顧客の取引先マスタの品質を可視化する「取引先データ診断レポート」を開発しました。 顧客データをマスタデータと照合し、現状の品質課題や活用余地を定量的に算出するレポートを自動で生成します。これにより、営業担当者はSDI導入による具体的なデータ改善幅を数値で示せるようになりました。単なる分析結果の提供にとどまらず、受注確度を高めるためのロジックそのものを実装しています。

ロードマップを数値に変換するシミュレーション
SDIは継続的に機能拡張を行っています。それによって将来的にサービスが具体的にどの程度改善されるかを、顧客へ提示するためのパイプラインを構築しました。具体的には、開発ロードマップにあるデータソースやアルゴリズムを仮想的に適用し、顧客データに対するインパクトを事前に定量化する仕組みです。
ロードマップ上のこのデータ拡充により、貴社の名寄せ識別率は現在の◯◯%から◯◯%へ改善する見込みです。
このように、未来の機能実装による効果を根拠ある数値として提示しています。これにより、営業やカスタマーサクセスは現時点の機能だけでなく、将来実現される価値も含めて訴求を行えるようになります。これはビジネスと開発が密に連携しているSDIチームならではの強みであり、データの生成過程を深く理解しているデータサイエンティストがいるからこそできる仕事だと考えています。
実装の優先順位付けにおける意思決定支援
数あるデータソースの中から、何を優先してプロダクトに搭載するかの意思決定にも貢献しています。各項目の充足率や品質、プロダクトへの改善効果を定量的に分析し、投資対効果の高いデータソースを選定するための判断材料を提供しています。これもデータドリブンなプロダクト開発の第一歩です。
データ品質の分析は、例えばDataplex Universal CatalogのData Profiling/Quality Check機能を試験的に導入するなど、データ品質を継続的に監視・評価できる仕組みとして開発プロセスに定着させることにも注力しています。分析者として都度データをチェックする受動的な関わりではなく、システム自体が品質を担保し続けられる仕組みとなるよう、データエンジニアリングの領域にも踏み込んで活動しています。
連携予定のデータについての概念設計
立ち上げ期のデータサイエンティストにとって重要な役割は、将来、分析や活用をしやすくするためのデータ生成過程そのものを設計することです。私たちは目先の案件対応を型化して効率化する一方で、SDIの価値の源泉であるマスタデータの設計にも深く入り込んでいます。
例えば「企業グループの関係性」は、社会ネットワーク分析に明るいデータサイエンティストが価値を発揮できる領域です。具体的には次のような視点を設計段階から注入しています。
- 実データの分布はこうなっているから、一律の正規化は情報欠落のリスクがある
- 将来の分析視点では、データはこのような構造で保持した方が良い
連携するデータの特徴把握や仕様策定といった泥臭い部分をデータサイエンティストが巻き取ることで、開発エンジニアは基盤開発そのものに専念できます。結果として、手戻りのない堅牢なプロダクト開発が可能になっています。
加えて、データ生成過程の設計に入ることで、データサイエンティストがその受益者になります。一般的な分析業務では、すでに存在するデータ生成過程を所与として受け入れ、その制約の中で戦わなければならないケースが少なくありません。しかし、立ち上げ期からデータ生成のプロセスそのものに介入することは、巡り巡って将来の私たち自身を助けることになります。現在においてデータ生成過程を正しく設計することは、未来の自分たちが、より高度で本質的な分析やモデル構築に集中できる環境を作ることと同義です。
プロダクトへの成長貢献の先にある問い
立ち上げ期のデータサイエンティストにとって、データ整備や抽出などの泥臭い業務は避けて通れません。一方で、最新技術を活用する他社を見て、技術資産がすり減るような不安を感じる瞬間があるのも事実です。それでも、私たちはこれを単なる下積みではなく、将来の価値創出に向けた重要なプロセスと捉えています。チームメンバーは、プロダクト貢献を前提としつつ、その先にある問いの解決を見据えています。
例えば私の野望は、The Returns to Face-to-Face Interactions のような学術的な成果を、弊社のデータを用いて実現することです*2。SDIというプロダクトを通じてデータの質と量を高めることは、将来的にSansan株式会社のMissionである「出会いからイノベーションを生み出す」が本当に起きているかを実証することに直結します*3。
同チームの金髙も、BtoB SaaSにおける効果検証という難題に対し、SDIにおける将来的な検証をどう可能にするか、ひいては立ち上げ初期からデータサイエンティストが介在する意義そのものを日々問い続けています。
プロダクトの成長のために必要とされる案件対応とデータ生成過程の設計、その先にある科学的な探究心、こうした矜持を持ったメンバーが、SDIの進化を今後も支えていくと私は信じています。
一方で、こうしたメンバー個人の野心や矜持だけに依存し続けることは、組織としての課題であるとも認識しています。泥臭い実務と個人の好奇心の両立を、個人の想いの強さだけで支えるのではなく、事業貢献をすればするほど、自然と必要なデータや環境が整っていくという再現性ある仕組みに落とし込むこと。これが、私たちが解決すべきテーマだと考えています。
終わりに
現在のSDIにおいて、データサイエンティストのチームは新規プロダクトであるSDIの事業成長の核となるべく日々奮闘しています。データが貯まるのを待つことなく、営業がプロダクトを売るための武器と、データが価値を生むための仕組みを作る — これこそが、プロダクト立ち上げ期におけるデータサイエンティストの真の価値だと私たちは考えています。
Sansan Data Intelligenceはまだ始まったばかりです。これからもビジネスとエンジニアリングの結節点として、プロダクトの成長に貢献していきます。”Data Soldier”として面白いことを仕掛けていきたい野心をお持ちの方、ぜひ一緒に働きましょう。
カジュアル面談
Sansanでは、中途の方向けにカジュアル面談を実施しています。Sansanでの働き方、仕事の魅力について、現役エンジニアの視点からお話しします。 本稿でお話した、データサイエンスを通じてSansan Data Intelligenceの立ち上げを一緒にやりたいと思った方、是非エントリーください。
採用説明会イベント
3月31日(火)に採用説明会を行います。 Sansan Data IntelligenceのProduct Ownerやエンジニアから「どんなメンバーが、どのような役割で開発に関わっているのか」「どんな課題に挑戦できるのか」という話を聞けるチャンスです。興味ある方は以下のリンクよりエントリーの上ぜひご参加下さい。
新プロダクト「Sansan Data Intelligence」エンジニア向け採用説明会
*1:筆者はデータサイエンスを深く語る立場にはありませんが、ここで言うそれは、データ生成過程から設計し仮説を正当化するプロセスを積み上げることで、不確実な状況下での意思決定に根拠を与える認識論的な営みすべてを指すものと考えています。
*2:過去にMartínez Dahbura et al. (2023)で名刺アプリ「Eight」の名刺交換ネットワークを用いた分析例があります。なお分析においては、個人を匿名化し、ユーザーによって登録された名刺の情報をEightの利用規約で許諾を得ている範囲において使用しています。
*3: 『歩いて学ぶ都市経済学』の中でも名刺交換データを用いた研究について触れられており、共同研究者からこうした研究成果への期待をひしひしと感じております。