https://blog.statsbeginner.net/entry/2026/02/24/112352

　何年か前に、統計学の勉強会をしている学生の会話を聞いていたら、パラメータの推定に「二乗誤差」を用いる理由を「誤差の符号を正にするため」というふうに先輩が後輩に説明していました。理由を考えようとする姿勢は素晴らしいと思いつつ、「そう単純でもないんだよな」ということで、分散の加法性がどうたらこうたらとコメントした気がしますが詳細は忘れました。

　観測誤差は、真の値からプラスの方向にもマイナスの方向にも振れることが多く、仮に正規分布のように対称な分布になっているとすると、単純な足し合わせではゼロに近づいてしまって、「誤差の大きさ」（観測の精度）を議論できなくなります。「じゃあ、絶対値を取ればいいじゃないか」という発想はあり得て、実際にロバスト回帰という手法では絶対偏差（誤差の絶対値の総和）が使われるのですが*1、一般的には「二乗誤差」で評価することがほとんどです。

　では、それは何故なのかという話になると、Wikipediaにも色々なことが書かれてますが、2つの方向での説明があり得ます。1つは、最小二乗法が使われるようになった歴史的経緯をたどり、それを考案した人たちにとってどういう理由があったのかを考えるということ。もう1つは、現代の統計学に接続する意味で、理論的な「扱いやすさ」を確認するということです。これらは、「使われ出した理由」と「使われ続けている理由」に対応するとも言えるかも知れません。

　理論的な扱いやすさのほうを先に挙げておくと、二乗誤差というのはL2ノルム、つまり内積を定義できる空間を考えることにあたり、いろいろと便利な性質を持ちます。
　たとえば、内積が定義できる空間を考えればデータを直交分解できるってのがあります。直交分解というのは、あるベクトルを、「ある空間への射影」と「それに直交する成分」に分離するということですが、これは「回帰直線と残差への分解」もそうですし、分散分析でデータの分散（情報量）を「群内平方和」「群間平方和」「残差平方和」にキッチリ分けることができるのも、内積が定義できる空間を考えているからこそです。主成分分析で各主成分を直交するように求めていくのも、同じ手続きだと言えますね。
　もう一つの理論的な理由は、二乗誤差の最小化が、正規分布の最尤推定に一致するということが挙げられます。これはガウスが1809年に主張したことですが（私はちゃんとは読んでないですが）、最小二乗法の登場よりは後の話なので、後づけの正当化の一種だと言えます。
　あと、絶対値だと原点で角になるので微分できませんが、二乗誤差は微分できるというのも大きいと思います。二乗誤差を偏微分して正規方程式の連立を解いて最適化という流れは、後述のルジャンドルも使っていますね。

　では歴史的にはどうだったのかというと、まずニュートンは1700年前後の時期に、いろいろな天体観測を行う中で、同じ量を何度も計測した場合は、「観測値の平均」を取って代表値としていたそうです。計測機器の性質から、観測精度に差があったので、その差を重みとして考慮した重み付き平均も使っていたらしい。平均値というのは、じつは結果的に「二乗誤差を最小にする点」になりますので、ニュートン自身が「二乗誤差を最小にしよう」というような発想を持っていなかったとしても、結果的に最小二乗法が実践されていたことになります。
　ちなみにWikipediaの記事では、ニュートンが「正規方程式」を初めて書いたと書かれていますが、arxivの論文をたどると、ニュートンはOLSの2本の正規方程式（回帰直線がデータの重心を通り残差の和がゼロになるという条件と、説明変数と誤差の相関がゼロになるという条件）のうち、1本目には到達していたという話です。これがどれだけ「惜しかった」のかは、私にはにわかに判断が付きませんが、2本目の方程式のほうが本質的でかつ到達するのが難しい気はします。

　その後の時代になりますが、ラプラスは1780年代から1790年代にかけて、絶対偏差を最小化する方法を使っていたそうです。現代でいうロバスト回帰の手法ですね。ラプラスは、誤差の確率密度関数（ラプラス分布という指数分布の一種を考えていたらしい）を使って正当化しようとしたらしいですが、理論的にうまくはいかなかったようです。
　この時代に重要だったのは、絶対偏差と二乗誤差のどちらが優れているかというよりも、「たくさんの観測値から代表値を求めると誤差を打ち消すことができる」という発想が定着したことですね。1つの観測の精度を高めることも大事だけど、誤差が対称に分布しているのだとすれば、たくさん測ることで誤差を大幅に減らすことができる。私も、大学で測量の野外実習を教えていたことがあるのですが、精度の低い古風な手法で測っても、平均を取れば思った以上にキッチリ特定の値に近づいていくので感動しました。

　ルジャンドルというのは、1805年に最小二乗法をはじめて理論化したとされる人で、Stiglerという人の論文に詳しく書いてあるように、ガウスとの間で「どっちが先に考案したか」で争いがあったそうです。一応、先に公表したのは間違いなくルジャンドルということになるらしいのですが、ルジャンドルがなぜ最小二乗法を推奨したかというと、二乗誤差を最小化する問題を偏微分すると線形の正規方程式が得られて、この解を求めるというアプローチであれば、未知のパラメータが複数あっても最適化ができるからです。要するに、歴史的には、「パラメータが複数あるケースでも解析的に解ける」という実用上の理由が大きかったのだということです。

　ガウスは自分では「1795年から最小二乗法を使っていた」と主張したらしいのですが、公に発表したのは間違いなくルジャンドルということになります。ただ、ガウスが1809年に自身の手法を公表した際には、正規分布との関係性が議論されており、理論的には間違いなくガウスのほうが洗練されていたようです。そして、上述したように最尤法との一致やら直交分解やらの便利な性質から、現代に至るまで「最小二乗法」が使われているというわけですね👍️
　ガウスの論考は、もとはラテン語らしいですがここに英訳があった（長いけど該当箇所は後ろのほうの172節〜179節）ので、理解できる気はしないけどあとで眺めておこうと思います。178節で正規分布が導出されていますね（ $h = \frac{1}{\sqrt{2}\sigma}$ で、 $\Delta$ が観測誤差です）。

（参考：このブログのおすすめ記事一覧はコチラ）

*1:二乗誤差よりも外れ値の影響を受けにくい。これは原理的には、平均値というものが二乗誤差を最小にする代表点、中央値というものが絶対偏差を最小にする代表点であり、中央値のほうが外れ値の影響を受けにくいことに対応している。