次の問題を考える。

問題 $X _ 1,\ldots,X _ n\sim\mathcal{N}(0,1)$ をそれぞれ独立な確率変数とする。これを降順に並び替えて $X _ {(n)}\geq X _ {(n-1)}\geq\cdots\geq X _ {(1)}$ とする。このとき $X _ {(n)}-X _ {(n-1)}$ は十分大きい $n$ でどのような分布に従うか？

記号として標準ガウス分布の確率密度関数と累積分布関数を $\phi(x)$ と $\Phi(x)$ と表記する。また $f\sim g$ のように書いた場合 $n\to\infty$ で $f(x)/g(x)\to 1$ となることを意味するとする。

以下では同じことなので任意の $t>0$ に対する確率 $\Pr(X _ {(n)}-X _ {(n-1)}>t)$ のような形式を評価することを考える（元々個人的に知りたかったのはこの形式の確率だった）。この問題自体は次のmathoverflowで解決されているが、ここでは別の導出方法をメモしておく。

https://mathoverflow.net/questions/379673/concentration-and-anti-concentration-of-gap-between-largest-and-second-largest-v

測度の集中の活用

ここでは次の確率を評価することにする。式変形をして $X _ {(n-1)}$ の期待値の形にもっていき、最後では積分を実行せずに $X _ {(n-1)}$ の最頻値 $x _ \ast$ で置き換える。

$$ \begin{split} \Pr(X _ {(n)}-X _ {(n-1)}>t)&=\int _ {-\infty} ^ \infty\Pr(X _ {(n)}-X _ {(n-1)}>t\mid X _ {(n-1)}=x)f _ {X _ {(n-1)}}(x)dx\cr &=\int _ {-\infty} ^ \infty\frac{1-\Phi(x+t)}{1-\Phi(x)}\cdot n(n-1)(1-\Phi(x))\Phi(x) ^ {n-2}\phi(x)dx\cr &=\mathbb{E} _ {X _ {(n-1)}}\left[\frac{1-\Phi(X _ {(n-1)}+t)}{1-\Phi(X _ {(n-1)})}\right]\cr &\sim\frac{1-\Phi(x _ \ast+t)}{1-\Phi(x _ \ast)} \end{split} $$

ここで $X _ {(n-1)}$ の確率密度関数 $f _ {X _ {(n-1)}}(x)=n(n-1)(1-\Phi(x))\Phi(x) ^ {n-2}\phi(x)$ の最頻値 $x _ \ast$ を計算しよう。やりやすさのために対数をとり、 $x$ が関係するところを $f(x)$ とする。

$$ \begin{split} f(x)&=\log\left(\frac{f _ {X _ {(n-1)}}(x)}{n(n-1)}\right)\cr &=\log(1-\Phi(x))+(n-2)\log\Phi(x)+\log\phi(x) \end{split} $$

とおき、これを微分する。

$$ f'(x) = - \frac{\phi(x)}{1-\Phi(x)} + (n-2)\frac{\phi(x)}{\Phi(x)} - x $$

$f'(x)=0$ を解きたいが、これはかなり困難を伴うので近似的に求める。少なくとも $\Phi$ の積分を消し去ることを目標とする。ここで使うのが次の関係式である。

Mills ratio $$ \frac{1-\Phi(x)}{\phi(x)}=\frac{1}{x}-\frac{1}{x ^ 3}+\frac{1\cdot 3}{x ^ 5}-\frac{1\cdot 3\cdot 5}{x ^ 7}+\cdots,\quad(x>1) $$

$X _ {(n-1)}$ の最頻値 $x _ \ast$ は、この確率変数の性質から $x$ がある程度大きい箇所にありそうである。というわけで $(1-\Phi(x))/\phi(x)\sim 1/x$ と近似してしまってもよさそうである。というわけでこの近似を使えば

$$ f'(x)\sim -x+(n-2)\phi(x)-x $$

となる。これをだいたいゼロとおいてやり、整理すると

$$ (n-2)\frac{1}{\sqrt{2\pi}}e ^ {-x ^ 2/2}\sim 2x $$

両辺対数をとってさらに整理することで（ $n-2\sim n$ としてしまう）

$$ x ^ 2\sim 2\log n-2\log(2x)-\log(2\pi) $$

これより、主要項を考えれば

$$ x _ \ast\sim \sqrt{2\log n} $$

と求めることができる。

もしこれよりも精密に評価したければ、 $x=\sqrt{2\log n}-y _ \ast$ として代入して $y _ \ast$ を求める。 $y _ \ast\to 0$ となることに注意すると $x ^ 2\sim 2\log n-2y _ \ast\sqrt{2\log n}$ であり $2\log n-2\log(2x)-\log(2\pi)\sim2\log n-\log(\log n)-\log(16\pi)$ となる。これらを等しいと思って $y _ \ast$ についてとくと

$$ 2\log n-2y _ \ast\sqrt{2\log n}=2\log n-\log(\log n)-\log(16\pi) $$

から

$$ y _ \ast=\frac{\log(\log n)+\log(16\pi)}{2\sqrt{2\log n}} $$

が得られる。よって精密にやる場合には

$$ x _ \ast\sim \sqrt{2\log n}-\frac{\log(\log n)+\log(16\pi)}{2\sqrt{2\log n}} $$

とすればよい。なお、後述するようにこれは極値統計学における基準化定数に対応するものになっている（極値統計学で必要とされるのは $n\frac{1}{\sqrt{2\pi}}e ^ {-x ^ 2/2}\sim x$ の評価であり、これから導出されたものは $\log(16\pi)$ が $\log(4\pi)$ になることを除いて一致する）。

$n\to\infty$ ではないが十分大きい $n$ の挙動を詳しく知りたい場合はこの補正が効いてくるが、ここでは精密には考えず主要項だけで評価しよう。するとMills ratioを使ったりなどして

$$ \begin{split} \Pr(X _ {(n)}-X _ {(n-1)}>t)&\sim\frac{1-\Phi(x _ \ast+t)}{1-\Phi(x _ \ast)}\cr &\sim\frac{x _ \ast}{x _ \ast+t}\frac{\phi(x _ \ast+t)}{\phi(x _ \ast)}\cr &\sim\exp\left(-tx _ \ast-\frac{t ^ 2}{2}\right)\cr &\sim\exp\left(-t\sqrt{2\log n}-\frac{t ^ 2}{2}\right) \end{split} $$

となる。

極値理論の利用

極値理論の導入

ここでは簡単に極値統計学の入り口についてまとめておく。なお、ここの文章は適当にこの本の初めの方を流し読みした程度の知識に基づく。

$X _ 1,\ldots,X _ n$ がある分布 $F$ に従うとして $Z _ n=\max _ {1\leq i\leq n}X _ i$ としよう。このとき、ある $a _ n>0,b _ n\in\mathbb{R}$ が存在して

$$ \Pr\left(\frac{Z _ n-b _ n}{a _ n}\leq x\right)\rightarrow G(x) $$

をみたすとする。この状況を母集団分布 $F$ はある極値分布 $G$ の吸引領域に属する、などといい、しばしば $F\in \mathcal{D}(G)$ などと書かれているのを見かける。極値統計学ではこれが起こる状況が仮定される。今回は標準ガウス分布の場合を考えるので、この状況はみたされる。 $(a _ n,b _ n)$ は基準化定数などといわれる。なお、この表現は $\lim _ {n\to\infty} n(1-F(a _ nx+b _ n))=-\log G(x)$ と同じであり、具体的に計算する場合にはこちらが便利である。

極値分布はどのような分布か？

確率分布が極値分布になるためには、ある $a _ n>0,b _ n\in\mathbb{R}$ が存在して $G(a _ nx+b _ n) ^ n=G(x)$ をすべての $x\in\mathbb{R}$ でみたすことが必要十分である。これをみたす分布はGumbel分布 $\Lambda(x)=\exp(-e ^ {-x})$、Fréchet分布 $\Phi _ \alpha(x)=\exp(-x ^ {-\alpha})$、負のWeibull分布 $\Psi _ \alpha(x)=\exp(-(-x) ^ \alpha)$の3つだけであることが示せる。

なお、これらの極値分布を表す確率変数はいずれも標準指数分布の確率変数を使って表現することができる。

特定の極値分布の吸引領域に属するための必要十分条件／基準化定数の求め方

この文章中では標準ガウス分布についてのみ考えるため、これに必要な事柄だけを簡単に説明する。

標準ガウス分布はGumbel分布の吸引領域に属することが知られている。分布 $F$ がGumbel分布の吸引領域に属するための必要十分条件は

$$ \lim _ {t\uparrow\sup \lbrace u: F(u)<1 \rbrace}\frac{1-F(s(t)x+t)}{1-F(t)}=e ^ {-x},\forall x\in\mathbb{R} $$

となる関数 $s(t)>0$ が存在することである。さらに、このとき基準化定数は

$$ F(b _ n)=1-\frac{1}{n},\quad a _ n=s(b _ n) $$

によって決めることができる。標準ガウス分布の場合にこれらを計算すると $s(t)=1/t$ であり、

$$ a _ n=\frac{1}{\sqrt{2\log n}},\quad b _ n=\sqrt{2\log n}-\frac{\log(\log n)+\log (4\pi)}{2\sqrt{2\log n}} $$

と求めることができる。

本題

少し一般的に、ガウス分布の上位 $r$ 個の同時確率分布を考えることにする。ただし $n\to\infty$ のような漸近的な状況を考える。このとき

$$ Z _ i=\frac{X _ {(n-r+i)}-b _ n}{a _ n} $$

なる変換を考える。$r$ は $n$ に無関係な有限の定数とするため、基準化定数は前の節で提示したものを利用すればよかろう。もとの順序統計量の同時確率密度関数は

$$ f _ {X _ {(n-r+1)},\ldots,X _ {(n)}}(x _ 1,\ldots,x _ r)=\frac{n!}{(n-r)!}\Phi(x _ 1) ^ {n-r}\prod _ {i=1} ^ r\phi(x _ i) $$

と計算できる。これを上記の変数変換をした分布でみれば、ヤコビアンとしては $(a _ n) ^ r$ がかかって

$$ f _ {Z _ 1,\ldots,Z _ r}(z _ 1,\ldots,z _ r)=\frac{n!}{(n-r)!}(a _ n) ^ r\Phi(a _ nz _ 1+b _ n) ^ {n-r}\prod _ {i=1} ^ r\phi(a _ nz _ i+b _ n) $$

となる。これから、各項 $n\to\infty$ でどうなるか計算していく。

まず $n!/(n-r)!\sim n ^ r$ となる。また、 $1-\Phi(a _ nz _ 1+b _ n)\sim e ^ {-z _ 1}/n$ となることと $(1-e ^ {-z _ 1}/n) ^ {n}\sim \exp(-e ^ {-z _ 1})$ となることに注意すると $\Phi(a _ nz _ 1+b _ n) ^ {n-r}=(1-(1-\Phi(a _ nz _ 1+b _ n))) ^ {n-r}\sim\exp(-e ^ {-z _ 1})$ となることがわかる。さらに $\phi(a _ nz _ i+b _ n)\sim\phi(b _ n)\exp(-z _ i)$ となることを考慮して整理すると

$$ f _ {Z _ 1,\ldots,Z _ r}(z _ 1,\ldots,z _ r)\sim\exp\left(-e ^ {-z _ 1}-\sum _ {i=1} ^ rz _ i\right) $$

という同時確率密度関数が得られる。ここで、次のように変形してみる。

$$ f _ {Z _ 1,\ldots,Z _ r}(z _ 1,\ldots,z _ r)\sim e ^ {-z _ 1}\exp(-e ^ {-z _ 1})\exp(-(z _ 2-z _ 1))\cdots\exp(-(z _ r-z _ {r-1})) $$

こうみると、次のように解釈ができる。まず $Z _ 1$ に関連する $e ^ {-z _ 1}\exp(-e ^ {-z _ 1})$ はGumbel分布の確率密度関数であることが知られている。さらに、 $Z _ {i+1}-Z _ i$ に関連する $\exp(-(z _ {i+1}-z _ {i}))$ も並んでいることがわかり、すなわちこれは標準指数分布の確率密度関数である。したがって $Z _ {i+1}-Z _ i$ は指数分布に従うことがわかる。

私が知りたかったのは $X _ {(n)}-X _ {(n-1)}$ の分布であり、 $r=2$ の状況だった。 $Z _ 1$ と $Z _ 2$ を使うと $a _ n(Z _ 1-Z _ 2)$ と同じである。したがってこれは

$$ \Pr\left(X _ {(n)}-X _ {(n-1)}>\frac{c}{\sqrt{2\log n}}\right)\to e ^ {-c} $$

であることを意味する。