2025.06.07記
をみたすとする.このとき,次の不等式を証明せよ.
(1) (
)
(2)
2025.06.07記
2次元データ ,…,
に対して
を最小にする によって定まる直線
を
の
への(最小二乗基準による)回帰直線という.
のとき,
は ,
のとき最小となるので,求める回帰直線は
となる.
同様に,2次元データ ,…,
に対して
を最小にする によって定まる直線
を
の
への(最小二乗基準による)原点を通る回帰直線という.
のとき,
は のとき最小となるので,求める回帰直線は
となる.
これら回帰直線の残差変動とシュワルツの不等式の関係は
コーシー・シュワルツの不等式の有名な証明と回帰直線の残差変動(残差平方和) - 球面倶楽部 零八式 mark II
参照.
では,実質的に[解答]と同じ式変形であるが,意味が見え易い[大人の解答]を行う.統計的な立場からすると (
)なので
,つまり原点を通る回帰直線として傾きを
の平均値としてみた,という話である.
(2) 2次元データ
(
)から
,つまり
となるので,
,
つまり
が成立する.整理して AM-GM 不等式を用いると
となるので,二乗して整理すると
となる.
本問の設定において本質的なのは ,
の部分だけなので,
なる正の(もしくは同符号の)定数
を満たす.ここで
のように本問は一般化される.ここで は決定係数とも呼ばれ,1に近いほどデータの分布の直線度が増すという1つの指標になっている.この点からしても本問の(2)の不等式は不自然である(逆数をとるべき).
この一般化だと が正にも負にもなり,
が常に正である本問との整合性がとれないのではないかと思うかも知れない.このことに気付くのは非常に素晴しいことである.本問との整合性をとるために
2次元データ
(原点を通る回帰直線を( 軸に沿う誤差の関数の最小化によって)求める問題において,データ
が
を満たすとき,
を
に置き換えても誤差が変わらないので全ての
が非負として良く,さらに
となる場合の誤差は回帰直線の傾きに依存しないので取り除いて考えても良いので結局,
は全て正としても良いことになる.
2025.06.09記
最適な回帰直線と とした回帰直線に対する損失
の関係は
であり,これを で評価しているので,
,
整理して
が成立する.もちろんこの式は により
と同値な式であるが,
(
) から
が導けることになる(だから何だというのはまだ良くわからずとりあえず書いておく).