https://saize-lw.hatenablog.com/entry/2025/10/17/200000

サンプル数5の研究って何？

先月の下旬頃にTwitterでこのツイートが話題になった。

【体育における「できて当然」という規範は、男子生徒の男性性のあり方をどのように形づくるのか？】本研究はこの問いに答えるために、体育嫌いを自認する大学生10名を対象にフォーカス・グループ・インタビューを行い、そのうち男性5名の語りを分析しました。従来の体育は運動能力や競技成績に基づい… pic.twitter.com/Jt80YR06Kp
— 教育探究ひろば (@tankyuhiroba) 2025年9月19日

ここで紹介されている教育系の論文は、少なくとも多くのツイッタラーには概ね「体育によって不平等なジェンダー関係が正当化されることがわかった」というような論旨だと理解されたようだ（これはあくまでも状況説明であって、必ずしも正確な論文の読解とは限らないことを付言しておく）。

しかもその主張はN=5というごく少数のサンプルに基づいて展開されているらしい。もともとジェンダー絡みというネットのスラムで最も燃えやすいトピックであることと相まって、概ね「N=5でその結論を導くのはあまりに横暴で杜撰な研究ではないか」というような疑義が、主にはこのような質的研究に不慣れな理系勢力（およびポップジェンダー学に関心の高いデジタルごろつき）の間で浮上した。これに対して人文社会系陣営からは狭量な見識を糾弾する声も上がり、事態は量的研究と質的研究の対立に発展していった。

あえて乱暴にまとめれば、今回の騒動は「N=5で行われた何らかの主張が妥当であり得るか否か」を巡り、数理的なデータサイエンスを主戦場とする理系＝量的研究サイドが「否」、フィールドワークや資料調査を主戦場とする文系＝質的研究陣営が「賛」として衝突するような戦局だったと言える。

俺も情報系を出てデータサイエンスで飯を食っているので、肩書きとしては完全に理系・量的研究サイドに属する。
だから仮に理系陣営が言うように本当にこの論文がN=5で体育の一般的な効果について語っていたのだとしたら、確かにその信憑性は限りなく低いように思われる。一方、人文社会陣営が「本来の目的意識に照らせばこのサンプル数でも十分に意味がある」と主張するように別の目的があるのなら、統計的な基準だけで的外れな断罪を下すのも居心地が悪い。

何にせよ、Twitterは乱闘型PvPプラットフォームであって建設的な議論の場ではない。こういうときは信頼できるソースであるところの学術的な書籍を頼るに限る。
個人的にも実務データサイエンティストとして調査分析手法には関心があったので、戦いの中で名前が挙がっていた本や図書館で良さげだった関連書籍などをいくつか拾って読んでみた。

読んだ結論を少し先取りして書けば、質的研究はむしろ実務データサイエンティストが日々当たり前にやっているプロセスを精緻に言語化するものであるように思う。
読んだ内容には全面的に同意できるし、特にこれからAIが隆盛する時代においてデータサイエンティストとして生きていくために求められる代替可能性の低い数理以外のスキルが質的研究に一通り網羅されている。データを扱う人間は一度は目を通しておいて損はしない。

何でもやる系のデータサイエンティストです

一口にデータサイエンティストといっても、その業務内容や必要なスキルは多岐に渡る。よって雑に語る前にまず自分自身の業務スタイルを軽く書いておく（以下、注釈なしで「データサイエンティスト」と書いた場合は全て自分のような者を指す）。

俺は主にサービス事業の分析ポジションにいるが、対象もテーマも幅広くかなり何でもやる方だ。
マーケティングも営業もプロダクトもやるし、時系列分析も因果推論もモデリングもダッシュボード構築もやる。いわゆるCRISP-DMに沿って必要なビジネスロジックやオペレーションについてもヒアリングや資料見聞を行い、分析結果等を非データ人材を含む関係各所に説明することも少なくない。
統計検定1級は持っているが、実務で統計的検定を陽に使うことはほとんどない。パッと見ではわからない相当にシビアなケースでだけ一応二項検定とかカイ二乗検定で簡単にチェックしておくこともなくもないくらいだ。それよりは適切な仮説を立てて分析やモデリングを設計したり、複雑なビジネス上の含意を正しく解釈することの方が重要度が高い。

補足601：データサイエンスは裾野が広いので、本当に量的な分析だけで完結する領域もあることは承知している。例えばモデル開発だけを担当する機械学習エンジニアのようなポジションなら専門家以外とコミュニケーションする必要はないかもしれないし、工場で品質管理を専門に扱うポジションならむしろ統計的検定によって有意性をシビアにチェックすることがメインの業務かもしれない。

読んだ本

Twitterで勧められていた本を中心に読んだ三冊の感想を軽く書く。

質的研究をはじめるための３０の基礎スキル

/ ジョン・W・クレスウェル＆ジョアンナ・クレスウェル・バイアスhttps://t.co/HNS7Cizc0B
質的研究に関して素人が思いつくような疑問は、この本でほぼ説明されているはずです。サンプリングについても簡潔に説明されています。
— Naoki Iso (@isnki) 2025年9月21日

この件については、井頭昌彦「質的研究アプローチの再検討: 人文・社会科学からEBPsまで」がかなり勉強になる本だと思います。 https://t.co/kbPeexE0QG
— もさ (@MosaKyoto) 2025年9月20日

質的研究アプローチの再検討

勁草書房

最も充実していて最も勉強になる本。これを読めばだいたい全てわかる。
ただタイトルに「再検討」とある通り、「基礎を理解している読者が改めてもう一度考え直す」という二周目の本であるために全体的にレベルが高い。因果推論の知識をそれなりに広く身に付けた上で、更に質的研究についても典型的な手法や共通見解を踏まえておく必要がある。俺は因果推論には馴染みがあったが、質的研究については素人だったので先にもっと基礎的な文献を二冊読んでからトライした。
この本自体が「主に量的研究から質的研究に寄せられてきた疑義や批判について再検討して回答する」という構成なので、今回のTwitterの状況と噛み合っているというかほとんどそのままの状況だ。門外漢が抱きそうな疑問が全て扱われているのが美味しい。

補足602：ただ厳密に言えば、この説明はフェアではない可能性が高い。というのも、この本ではとりあえずの仮想敵として「KKV」という論文を大々的に取り上げているのだが、とはいえフェアネスを重視して「KKVはあくまでも質的研究へのアドバイスであり、全面的な批判を行うものではない」という擁護が紙面の半分ほどを覆う脚注によって何度も繰り返し再放送されているからだ。とはいえ、それら全てに目を通した上でなお「（KKV著者の意図はともかくとして）大雑把に言えば、KKVは質的研究への批判ソースとして機能しているようだ」とまでは言ってしまっても怒られはしないだろう。

最初の二章で基礎的な理解を終えてからは異なる著者によるオムニバス形式の各論が続く。具体的な各分野の事情を噛み砕いた話と、図式化された抽象的な枠組みの話がバランスよく配置されていて読み物としても面白い。やや重めだが質が高くて非常にオススメできる本。これを読めばとりあえずゴールで良さそう。

質的研究の方法　いのちの〈現場〉を読みとく

作者:波平恵美子,小田博志
春秋社

Twitterでオススメされていたわけではないが、図書館でパラ見して良さそうだったので借りた本。
フィールドワークに長けた文化人類学者が対談などを通じて質的研究を語る本で、過度に理論に寄っておらず典型的な研究の営みをイメージしやすい。抽象的な議論に入る前に、地に足のついた現場感覚を押さえる一冊目として手頃。

質的研究における最大の意義をアブダクション（仮説形成）に見出し、「文化とは仮説である」と断言しているところはかなり良かった。実務データサイエンティストも日々アブダクションで仮説を立てながら働いているのであり、それもなしに最初から最初から量的な分析に取りかかることはほとんどない。

質的研究をはじめるための30の基礎スキル

作者:ジョン・W・クレスウェル,ジョアンナ・クレスウェル・バイアス
新曜社

よりフォーマルに書かれた質的研究の入門書。
タイトル通り、かなり若い学部生や修士課程をターゲットにした実践向きの内容。アイデア出しからインタビュー手順、公刊に至るまでのあらゆる基礎スキルが30セクションに分かれて丁寧に解説されている。読めば質的研究の全容が嫌でも掴めるし、量的研究との対比も多くて理解しやすい。
単に手順を並べているだけではなく、調査や分析の背景にある哲学的なパラダイムの違いや、結果の妥当性及びクオリティ判断基準などの理論的な枠組みの説明も充実している。とにかく網羅的なので、門外漢が一冊で全体像を掴むのには向いている。

データサイエンティストこそ質的研究を学んだ方がいい

書籍三冊を読んだ結果、いまや質的研究の意義・目的・手法の全てに納得しているので逆にどこから説明を始めたものか迷う。
やはり本来の専門である量的研究との比較からスタートし、「量的研究によってはカバーされない・カバーできない領域を質的研究がカバーできる」という切り口で意義を語るのが最もやりやすい気がする。

人文社会領域の特殊事情

と言いつつ、実務データサイエンティスト目線を語る前に人文社会領域の特殊事情について語らせてほしい。
というのも『再検討』においては「この領域においてはこういう事情によってそもそも量的分析が適さない」という説明が色々紹介されており、それがかなり面白かったからだ。
量的分析が適さない領域は歴史、教育、政策学、行為分析、文化人類学など多岐に渡っており、しかもそれぞれ全く異なる固有の事情によって質的分析が適する理由が明快かつロジカルに語られており大変興味深い。

例えば、教育における成果分析を最も安直に考えると「どんな教え方をするとどんな成長をするか」というフォーマットで生徒に対するインアウトの因果分析を行えば良さそうな感じがするが、それはほとんど論外であるらしい。
なぜなら、近代の教育は「自律的な人間を育てる」という目的意識を伴っているからだ。つまり教育に成功した場合、生徒は自律性を発現して独自に挙動することが見込まれるので、むしろアンコントローラブルな振る舞いが望ましいという大変なアポリアがある。そういう自律性の発現模様は多種多様なので、そもそも全体から平均的な因果効果（いわゆるATE）を見込むという考え方自体が馴染まない。

そういう事情が様々な領域にある。
例えば政策学においては実務に近い問題は緊急性や有用性に鑑みて悠長にデータを集めるより一事例を速報的に深堀って現場の勘でフォローした方が役に立つシーンもあるし、行為分析においては見かけ上は同一の行為を区別するために量的な分析に先立って規則による定義を必要とするし、文化人類学は異なるクラスタは異なる解釈体系を持っていることを前提としているので一意な数値に集約した因果の解釈を行えない。
しつこいようだが、この辺りは本当に面白いのでぜひ『再検討』を自分で精読してみてほしい。

少し脱線したが、改めてデータサイエンティスト実務で生じる質的研究のニーズを書いていこう。

実務で必要な質的分析

さっきも言ったようにデータサイエンティストの実務はデータサイエンスだけでは全く終わらないのだが、その理由を天下りの業務フローではなくもっと細かい理由からのボトムアップで整理したい。
ざっくり分けると、量的分析を行う前と後にそれぞれ質的研究みたいな作業をしなければならないフェイズが必ずある。

量的分析を行う前

最も基本的なものとして、量的分析を始める前にまずデータを揃える段階がある。
分析でもモデリングでも構わないが、そもそも「どの変数に注目すべきか」は着手前には全く自明ではない。これは抽象的な禅問答ではなく実務における深刻な問題だ。
例えば「このサービスの売上を伸ばしたい」と思ったとして、目的変数や分析対象を単純に「全体売上」としか考えないのは相当に筋が悪い。それは多くのセグメントやファネルや経路などで構成された混合物であり、その内実が混線したままではそもそも何を扱っているのかがはっきりしないからだ。

そこでまず何らかの切り口での分解を試みる作業が必要になるが、それは量的分析というよりは質的分析に近い。
というのも、この段階ではまだどんなデータを集めるべきかすら定かではないからだ。つまり数値を収集する前に収集すべき数値を決定するフェイズがあり、当然そこではデータをまだ集めていないので数量的な関係を語れない。
そこでストーリーとして語れるメカニズムを掴むため、質的研究が必要になる。まずは少数のサンプルを収集するなり関係者にヒアリングするなりサービスの意図を記した資料を読み込むなりして最大限妥当な仮説を構築しなければならない。
このときサンプル数は少なくても全く問題ない。それが実際にどのくらい妥当であるかは後の量的分析で確かめれば間に合うからだ。

また、目的を定めたあとは説明変数とか特徴量として使う変数を選定しなければならないが、ここでも量的分析を入る前に質的な検討が不可欠になる。理由は色々あるが、最大のものは世界には変数が多すぎることだ。
この世には変数が無限にある。雇用統計、景気動向、競合施策、天気、政府発表、年月、座標、などなど。それらのうち何が目的に関係して何が関係しないかは、確実に物理的に仕切られているなどのごくごく一部の例外を除いて事前にはわからない。モデルを構築する前に事前分析をするにせよ、結局「どの変数を事前分析の対象にするか」という問いは依然として立ち塞がるし、ここをクリアできるのはやはりメカニズムやストーリーに注目する質的な検討だけだ（まだデータがないので）。

ややテクニカルな話になるが、特に因果を推定する際には交絡変数の存在もこの文脈で大きな問題になってくる。交絡変数の欠落に起因する因果分析の失敗を事前に知ることは概ね不可能であり、ここを塞ぐためには質的研究が欠かせない。より一般的に言えば、いみじくもPearlが指摘したように因果グラフはデータに先立って想定しなければならない。

補足603：多重共線性や分布正規性といった細かいトピックについても概ね同じことが言えると思う。確かにVIFやシャピロウィルク検定のようにある程度は機械的に処理する方法もあるが、それで得られるのは目安に過ぎないし、特にデータ収集自体に一定のコストや期間を要する場合は事前にメカニズムから推測した方が効率が良いことは少なくない。

量的分析を行った後

量的分析を終えたあとに必要になる質的な考慮についても触れておく。
例えば2025年のログデータを分析し尽くし、サービス利用について完璧に正しい知見が得られたとしよう。しかし、それが2026年にも有効であるという確証は誰にも持てない。
なぜなら、この世に全く同じ状況は二度と現れないからだ。2026年になれば総理大臣も為替も変わるし万博も終わる。2025年のデータから得た知見は「大筋で同じ状況だろう」という無根拠な仮定の下で使うしかなく、それが破れたときは万策尽きた犬のように仰向けになって転がるしかなくなる。
これも根本的には「新しいデータがない状況には対応できない」という量的分析の限界を示している。

補足604：こういう事態はデータサイエンスにおいてはデータドリフトと呼ばれているが、実際のところ、実務上の一般的な状況でデータドリフトに関する知見がそれ自体でめちゃめちゃ役に立つことはあまりない気がする。というのも、現実問題、データドリフトへの対応方法はドリフト後のデータが溜まるのを待つことしかないからだ（データが溜まるまでの毀損は甘受するしかない）。ドリフトが起きた瞬間に即座に追従できる手法は、少なくとも完全に自由に分布が変化しうるという最も一般的な想定の下では明らかに一つも存在しない。

こういうときはデータの数量分析をきっぱり諦めて、質的研究に舵を切った方がよほど筋が良いことが多い。
つまり変数の数量的な関係というよりは、メカニズムのストーリーを自然言語レイヤーで理解しておき、未知の事象に対しても最大限validな暫定新仮説を立てて対応した方が未知の状況に対する先読み力がデータ分析よりも遥かに高いことが少なくない。もちろんその仮説の精度が最初から高いとは限らないが、おいおい漸近的に上げていく前提でとりあえず筋の良い出血対応ができるだろう。

データが少なくても何とかしろ！

分析前後の話をまとめると、要するに様々な事情によってそもそもデータがほとんどない状況に対応しないといけない事態はデータサイエンスの実務上でもありふれていて、そういう局面では少量のデータからでも確度の高い仮説を作り出せる質的研究が非常に有効ということだ。背景状況をヒアリングしたり資料を読み込んだりして初めて見えてくるものがあるということには大いに同意できる。

この辺りはデータサイエンティスト界隈でも「仮説ドリブン」とか「ドメイン知識」みたいなワードを用いてよく表現されている事柄ではあるが、それが質的研究と全く同じところを目指していると言って過言ではないと知れたのは学びだった。理系と文系で相反するどころか、実は我々は同業だったんですねというシンパシーがある。
もっと卑近で個人的な効用を言えば、今まではせいぜい「データサイエンスの実務では実は文系的な感性も大事なんですね」などとフワフワした説明しかできなかったところが、今後は「今やりたいことって要するに質的研究なので質的研究の膨大な知見を参照しましょう」という進め方ができるようになったのは大きい。

それはそれとして冒頭のツイートは悪くない？

さて、ここまで学んだ質的研究の意義を踏まえて冒頭の騒動に戻ると、これは明確にツイートが悪い気がする。
つまり元論文は妥当な主張しかしていないのだが、紹介ツイートが元論文は主張していないことを勝手に書いたせいで著しく疑わしい文章が生成されたというのが真相であるように感じている。

具体的に言うと以下の部分だ。

体育におけるヘゲモニックな男性性が不平等なジェンダー関係をいかに正当化しうるのかを考察する
（元論文第二章より）

本研究は、体育が単なる運動技能の習得の場ではなく、男子生徒の男性性を再生産する装置として作用していることを示しました。
（論文紹介ツイート）

ここの違い！！

仮説構築という質的研究の大きな意義の一つを踏まえると、「しうる」と「している」は天と地ほども違う。
元論文ではあくまでも「しうる」までしか考察していない。つまりそういう可能性があり得るよね、仮説として一旦妥当だよねということまでしか言っていない。それは少数のサンプルしか扱わないために、仮説の立証というよりは仮説の構築に主眼を置いていることの宣言として妥当だ。
一方、紹介ツイートでは「している」と書いてしまっている。これはどう控えめに読んでも事実の断定であり、もう既に仮説検証が終わった一般的な主張と捉えるのが自然だろう。
つまり元論文ではサンプル数が少なくても可能な仮説構築の話をしていたのに対して、紹介ツイートでは大量のサンプルが必要な仮説検証が完了している話にすり替わってしまっているように読める。

この一件は不適切な引用に問題があったということで俺の中では決着が付いたが、質的研究に関する知見が期待を遥かに超えて有用であり結論プラマイプラスだったので良しとしよう。