以下の内容はhttps://spherical-harmonics.hatenablog.com/entry/2025/07/11/162603より取得しました。


備忘録:LogSumExp(RealSoftMax)

LogSumExp - Wikipedia

\mbox{LSE}(x_1,\ldots,x_n):=\log(\exp(x_1)+\cdots+\exp(x_n))

\mbox{LSE}(x_1,\ldots,x_n)-\log n:=\log\dfrac{\exp(x_1)+\cdots+\exp(x_n)}{n}
と表すことができ,
\min\{x_1,\ldots,x_n\}\leqq \mbox{LSE}(x_1,\ldots,x_n)-\log n\leqq \max\{x_1,\ldots,x_n\}
が成立する.また,
\mbox{LSE}(x_1,\ldots,x_n)\geqq \log(\exp(\max\{x_1,\ldots,x_n\}))
=\max\{x_1,\ldots,x_n\}
も成立する.
\max\{x_1,\ldots,x_n\}\leqq \mbox{LSE}(x_1,\ldots,x_n)\leqq \max\{x_1,\ldots,x_n\}+\log n
で,x_i\mapsto tx_i とすると
\max\{x_1,\ldots,x_n\}\leqq \dfrac{1}{t}\mbox{LSE}(x_1,\ldots,x_n)\leqq \max\{x_1,\ldots,x_n\}+\dfrac{\log n}{t}
が成立する.

他にも
\mbox{LSE}(x_1+c,\ldots,x_n+c)
=\mbox{LSE}(x_1,\ldots,x_n)+c

\dfrac{\partial}{\partial x_k}\mbox{LSE}(x_1,\ldots,x_n)
=\dfrac{\exp(x_k)}{\exp(x_1)+\cdots+\exp(x_n)}
(softmax)
が成立する.

他にも Jensen の不等式から
\dfrac{x_1+\cdots+x_n}{n}\leqq \mbox{LSE}(x_1,\ldots,x_n)-\log n
も成立する.これから
\dfrac{x_1+\cdots+x_n}{n}+\log n\leqq \mbox{LSE}(x_1,\ldots,x_n)
\max\{x_1,\ldots,x_n\}\leqq \mbox{LSE}(x_1,\ldots,x_n)
の両方が成立する.そして
\max\{x_1,\ldots,x_n\}\to+\infty\mbox{LSE}(x_1,\ldots,x_n)-\max\{x_1,\ldots,x_n\}\to 0,
\max\{x_1,\ldots,x_n\}\to\min\{x_1,\ldots,x_n\}\mbox{LSE}(x_1,\ldots,x_n)\to\dfrac{x_1+\cdots+x_n}{n}+\log n=x_1+\log n
が成立する.

この観点からすると,
2025年(令和7年)東京大学-数学(理科)[2] - [別館]球面倶楽部零八式markIISR
において \max\{x_1,\ldots,x_n\}\to\min\{x_1,\ldots,x_n\} の場合に相等するので,LogSumExp で語られる
\max\{x_1,\ldots,x_n\}\leqq \mbox{LSE}(x_1,\ldots,x_n)
の評価は不適切で
\dfrac{x_1+\cdots+x_n}{n}+\log n\leqq \mbox{LSE}(x_1,\ldots,x_n)
の評価,つまり
\dfrac{x_1+x_2}{2}\leqq \log\dfrac{\exp(x_1)+\exp(x_2)}{2}
の評価を用いるのが適切となる.右側の評価は
\log\dfrac{\exp(x_1)+\exp(x_2)}{2}\leqq\dfrac{\exp(x_1)+\exp(x_2)-2}{2}
\log\dfrac{\exp(x_1)+\exp(x_2)}{2}=\max\{x_1,x_2\}
などが考えられる.




以上の内容はhttps://spherical-harmonics.hatenablog.com/entry/2025/07/11/162603より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14