以下の内容はhttps://spherical-harmonics.hatenablog.com/entry/2025/06/05/155417より取得しました。


コーシー・シュワルツの不等式の有名な証明と回帰直線の残差変動(残差平方和)

この証明は非常に有名だけどあまり知られていない.この証明を数十年前に初めて知ったときは気付かなかったのだけど,実は統計と関係がある.分散について

x,y を要素の数が等しい1次元データ,a,b を定数とするとき,
v_{px+qy}=p^2v_x+2pqs_{xy}+q^2v_y
となる.

という公式があるが,この公式で p=1,q=\dfrac{s_{xy}}{v_x} とおくと
0\leqq v_{y-\frac{s_{xy}}{v_x}x}=v_y-2\dfrac{s_{xy}}{v_x}s_{xy}+\dfrac{s_{xy}^2}{v_x}=v_y-\dfrac{s_{xy}^2}{v_x}
が成立するからである.そう言えば,このことを書いている統計の本は見たことがないな.

ただ,最小二乗基準で回帰直線を求める際に
0\leqq L(a,b)=\dfrac{1}{n}\displaystyle\sum_{i=1}^n \{ y_i - (ax_i+b) \}^2=\{(\overline{y}-(a\overline{x}+b)\}^2+v_{y-ax}=\{(\overline{y}-(a\overline{x}+b)\}^2+v_x\left(a-\dfrac{s_{xy}}{v_x}\right)^2+v_y-\dfrac{s_{xy}^2}{v_x}
という式変形を行って a=\dfrac{s_{xy}}{v_x}b=\overline{y}-a\overline{x} を代入し,相関係数 r_{xy} に対して
r_{xy}^2=\dfrac{s_{xy}^2}{v_xv_y}\leqq 1
をシュワルツの不等式を用いずに証明している統計の本は見たことがある.

なお,この a,b の値から
0\leqq L\left(\dfrac{s_{xy}}{v_x},\overline{y}-a\overline{x}\right)=v_{y-\frac{s_{xy}}{v_x}x}=v_y-\dfrac{s_{xy}^2}{v_x}
が成立する.これがシュワルツの不等式な有名な証明の統計学的解釈となる.

ちなみにこの値は回帰直線の残差変動(残差平方和)をデータの数で割ったもので,言わば「残差平方平均値」とも言うべき値となるのだが,そのような専門用語はないな.

また,統計では

全変動(SST):\displaystyle\sum_{i=1}^n (y_i - \overline{y})^2=nv_y
回帰変動(SSR):\displaystyle\sum_{i=1}^n (ax_i+b-\overline{y})^2=nv_{ax}=na^2v_x=\dfrac{s_{xy}^2}{v_x}
残差変動(SSE):\displaystyle\sum_{i=1}^n \{ y_i - (ax_i+b) \}^2=nv_{y-ax}=v_y-\dfrac{s_{xy}^2}{v_x}
a=\dfrac{s_{xy}}{v_x}b=\overline{y}-a\overline{x}

という用語が定義されていて,SSR+SSE=SST となることがわかる.そして
\dfrac{\mbox{SSR}}{\mbox{SST}}=r_{xy}^2
相関係数の二乗に等しく決定係数と呼ばれる.
決定係数 - Wikipedia
(決定係数の定義には諸説ある)

決定係数が1に近い程 \dfrac{\mbox{SSE}}{\mbox{SST}}=1-r_{xy}^2 は0に近くなるのでデータの直線性が増すことになる.

2025.06.08追記
単にシュワルツの不等式,というだけなら「原点を通る回帰直線」(所謂「比重の問題」)を用いれば良い.

2次元データ (x_1,y_1),…,(x_n,y_n) に対して
L(p)=\dfrac{1}{n}\displaystyle\sum_{i=1}^n (y_i-px_i)^2
を最小にする p によって定まる直線 Y=pXYX への(最小二乗基準による)原点を通る回帰直線という.この回帰直線は体積と重量の組である2次元データから比重を推定する手法の1つである.

注)このあたりについて興味深い論文が
www.jstage.jst.go.jp
にある.この論文は,通常の統計で学ぶ回帰は「X には誤差がない」ことが仮定されているが,論文では X,Y の両方に独立で等分散な誤差があることが仮定されており,その場合,通常は直交回帰(平面において,数式的には主成分分析と等価)を用いることが多いが,それよりも良い推定法があるかどうかについて検討している論文である.第一著者は最近良く名前を聞くようになった甘利俊一先生.

\overline{x^2}\neq 0 のとき,
L(p)=\overline{(y-px)^2}=\overline{x^2}\left(p-\dfrac{\overline{xy}}{\overline{x^2}}\right)^2+\dfrac{\overline{x^2}\cdot\overline{y^2}-(\overline{xy})^2}{\overline{x^2}}
p=\dfrac{\overline{xy}}{\overline{x^2}} のとき最小となるので,求める回帰直線は
Y=\dfrac{\overline{xy}}{\overline{x^2}}X
となり,残差について
\dfrac{\overline{x^2}\cdot\overline{y^2}-(\overline{xy})^2}{\overline{x^2}}\geqq 0
が成立する.




以上の内容はhttps://spherical-harmonics.hatenablog.com/entry/2025/06/05/155417より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14