「p値が0.05を下回るかどうか」にとらわれる慣習を問題視する人が、最近は増えてきています。たしかにその理由はよく理解できる一方で、p値を使った判断が過剰にバッシングされている気もします。
しかし個人的には、そんなことより、なぜ統計的有意性の判定基準が多くの分野で慣例的に0.05(5%)になっているのかという、歴史的な経緯のほうが気になります。
帰無仮説が正しいときにそれを棄却してしまう(第一種の過誤と呼ばれる)危険率が5%未満であれば「統計的に有意」と言われるわけですけど、この5%という閾値に客観的な必然性がないことは誰でも分かりますね。しかし実際には様々な分野で、5%基準で検定結果を報告(あわせて1%基準や10%基準での有意性も報告されたりはする)している研究が多数存在するわけです。
この5%という基準の由来について、フィッシャーが「20年に1回ぐらいは間違っても研究者として許されるだろ」と発言したのが始まりであるという説をよく聞きます。フィッシャーは植物学者なので実験を1年に1回というペースでしか行うことができず、「20回に1回(20年に1回)ぐらいは間違った結論を出しても許してほしいよな!」と言ったという話です。
ただ、これは単なる都市伝説だったようです。
「5%基準」の由来を調べた論文を以前読んだのですが、
On the Origins of the .05 Level of Statistical Significance
アブストラクトを適当に訳しておくと、
フィッシャーの『Statistical Methods for Research Workers』よりも昔の、統計や確率に関する文献を調査すると、確かに統計的有意性に関する"5%"基準を正式に唱えたのはフィッシャーが最初であることは確かなのだが、この考え方自体はもっと昔に遡ることが分かる。偶然性の仮説を棄却するための習慣的な基準は、世紀の変わり目ぐらいから徐々に形成されていった。統計的有意性に関する初期の言及は、「確率誤差」の観点から行われている。これら初期の習慣が、フィッシャーによって採用され言及されたのである。
この論文によると、昔は統計的有意性の判断基準として「確率誤差(ここに解説があった。)3つ分」という基準がよく使われていたらしく、これは正規分布なら「標準偏差2つ分」ぐらいに相当し、だいたい95%ぐらいになる。これが「5%基準」の由来のようです。
つまり、確率誤差3つ分(とか標準偏差2つ分)であれば計算しやすいというか、扱いやすいので、そのへんを基準にしてものを考える習慣が5%基準に転じたのであるということのようです。
フィッシャー自身の発言で有名なのは下記に引用するものです。
Statistical Methods for Research Workers (13版, p.44)
The value for which P = .05, or 1 in 20, is 1.96 or nearly 2; it is convenient to take this point as a limit in judging whether a deviation is to be considered significant or not. Deviations exceeding twice the standard deviation are thus formally regarded as significant.
これはまさに、正規分布の標準偏差2個分(正確には1.96個分)のラインでP = .05の閾値になるという話ですね。
要するに、もともとフィッシャーより前の時代に「確率誤差3個分」を有意性判断の基準に使う習慣があって、フィッシャー自身は「標準偏差2個分」という表現にしてますが、どちらも「だいたい95%のライン」に相当し、それがこの有名な著作を通じて世界中に広まったと。その時にフィッシャーが「20回に1回」「便利な基準」という言い方もしてるので、このへんが「フィッシャーは何となく『20回に1回は誤判断をしても許される』と考えていた」という都市伝説として広まったということのようです。
(参考:このブログのおすすめ記事一覧はコチラ)