https://pydocument.hatenablog.com/entry/2023/10/12/000754

深層ニューラルネットワーク（DNN）の訓練において、勾配消失（Gradient Vanishing）は学習を妨げる要因の一つです。逆伝播法（Backpropagation）を用いた学習プロセスでは、勾配降下法によってネットワークのパラメータ（重みやバイアス）を更新します。しかし、勾配消失が発生すると、このパラメータ更新が適切に行われなくなります。

勾配消失の影響・問題点

勾配消失が発生すると、具体的に以下のような問題が生じます。

学習の停滞

勾配消失が発生した状態では勾配が非常に小さくなるため、パラメータの更新量が極めて小さくなります。

伝言ゲームを想像してください。勾配消失は、伝言が途中でどんどん歪んでいき、最後の人が最初の言葉とは全く違う内容を受け取ってしまう状況に似ています。これでは、正しい情報（誤差情報）が伝わらず、ネットワーク全体が適切に修正されません。

モデルの性能低下

特に深い層を持つネットワークにおいて、勾配消失は入力層に近い層ほど顕著に現れます。このため、ネットワークの下層（入力層に近い層）が適切に学習されず、特徴抽出能力が低下します。

例えば、画像認識モデルの場合、下層は画像のエッジや模様などの基本的な特徴を抽出します。勾配消失により下層が学習されないと、モデルは複雑な物体を認識できなくなります。

局所最適解

勾配消失により学習が停滞すると、モデルが局所最適解（真の最適解ではない、局所的な最適解）に陥りやすくなります。

広大な土地で宝物を探すゲームを想像してください。本物宝物は最も価値が高いですが、偽物の宝物（価値の低い宝物）も多数隠されているとします。勾配消失が起こると、ゲームの参加者は偽物の宝物を見つけても満足してしまい、本物の宝物を探すのをやめてしまう可能性があります。

このように、勾配消失はDNNの学習を著しく阻害し、モデルの性能を十分に引き出せない原因となります。そのため、勾配消失問題への理解と適切な対策が、DNNの設計と訓練において非常に重要になります。

勾配消失の原因

勾配消失は、主に以下の二つの要因によって発生します。

要因1: 活性化関数の特性

シグモイド関数やハイパボリックタンジェント関数は、DNNでよく使われる活性化関数です。これらの関数は、入力値をそれぞれ0から1、-1から1の範囲に変換します。しかし、入力の絶対値が大きくなると、これらの関数の勾配（グラフの傾き）は0に近づきます。逆伝播では各層で活性化関数の微分が乗算されるため、勾配が連鎖的に小さくなり、勾配消失につながります。

例えば、シグモイド関数の場合、入力が10のときの微分値は約0.000045、入力が-10のときも約0.000045となり、非常に小さい値になります。これが何層も掛け合わされると、勾配はほぼ0になってしまいます。

活性化関数	式	微分	特徴
シグモイド関数	σ(x) = 1 / (1 + exp(-x))	σ(x)(1 - σ(x))	0から1の範囲の値を出力。入力の絶対値が大きいと勾配が0に近づく。
ハイパボリックタンジェント関数	tanh(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))	1 - tanh(x)²	-1から1の範囲の値を出力。入力の絶対値が大きいと勾配が0に近づく。
ReLU関数	ReLU(x) = max(0, x)	x > 0 のとき 1, x <= 0 のとき 0	計算が高速。x > 0 の範囲で勾配消失が起きにくい。

要因2: ネットワークの深さ

DNNは層を深くすることで複雑な問題を解く能力を得ます。しかし、逆伝播では出力層から入力層に向かって勾配が伝播するため、層が深いほど勾配は途中で小さくなりやすいです。各層で勾配が1より小さいと、層を遡るごとに勾配が指数関数的に減少し、勾配消失が起こります。

仮に各層での活性化関数の微分の最大値が0.25(シグモイドやtanhで起こりうる)とします。10層のネットワークの場合、逆伝播で入力層に伝わる勾配は、最大でも 0.25¹⁰ ≈ 0.00000095 となり、ほぼ消失します。

勾配消失への対策

勾配消失が起きると、DNNの学習は効率的に進みません。この問題に対処するため、以下の手法が用いられます。

対策1: 活性化関数の変更：ReLUの利用

ReLU（Rectified Linear Unit）は、勾配消失問題の対策として広く使われる活性化関数です。ReLUは、入力が正の場合は入力をそのまま出力し、負の場合は0を出力します。例えるならば、一方通行のドアのようなものです。正しい方向(入力が正)から押すと開きますが、反対方向(入力が負)から押しても開きません。

ReLUの微分は、入力が正の場合は常に1です。このため、ReLUは勾配消失を起こしにくいという特徴があります。また、計算が単純であるという利点もあります。ReLUの他にも、Leaky ReLUやELUなどの改良版も存在します。

対策2: 適切な重み初期化

重みの初期値を適切に設定することも、勾配消失の対策として重要です。Heの初期化やXavierの初期化は、DNNでよく使われる初期化方法です。

Heの初期化: ReLUと組み合わせて使う場合に推奨されます。前の層のノード数(n)を用いて、平均0、分散が 2/n の正規分布から、重みをサンプリングします。
Xavierの初期化: シグモイド関数やハイパボリックタンジェント関数と組み合わせて使う場合に推奨されます。前の層のノード数(n_in)と次の層のノード数(n_out)を用いて、平均0、分散が 2/(n_in + n_out) の正規分布、または、-√(6/(n_in + n_out)) から √(6/(n_in + n_out)) の一様分布から、重みをサンプリングします。

これらの初期化方法により、各層の活性化関数の出力のばらつきが適切に保たれ、勾配消失が起こりにくくなります。

対策3: バッチ正規化/レイヤー正規化

バッチ正規化（Batch Normalization）とレイヤー正規化（Layer Normalization）は、各層の入力を正規化する手法です。これにより、勾配が安定し、学習が効率的に進みます。

バッチ正規化: ミニバッチ内のサンプルごとに、各特徴量の平均と分散を計算して正規化します。具体的には、平均を引いて標準偏差で割る操作を行います。
レイヤー正規化: 各サンプルごとに、全特徴量の平均と分散を計算して正規化します。

これらの正規化手法は、活性化関数の入力を適切な範囲に保ち、勾配消失を抑制します。

対策4: 残差接続

残差接続（Residual Connection）は、ResNetなどのモデルで採用されている構造です。層の入力をショートカットし、出力に直接加算します。

計算例 通常の層: 出力 = F(x) (F(x)は層の出力) 残差接続: 出力 = F(x) + x

この構造により、勾配が層を飛び越えて伝播できるため、深い層でも勾配が消失しにくくなります。

残差接続は、伝言ゲームで伝言が歪んでしまうのを防ぐために、途中で何人かの人に元の言葉を直接確認してもらう仕組みに似ています。これにより、伝言の正確性が保たれ、情報が正しく伝わります。

まとめ

勾配消失は、DNNの学習を妨げ、性能を低下させる問題です。主な原因は活性化関数の飽和とネットワークの深さです。ReLUの利用、適切な重み初期化、バッチ正規化、残差接続などの対策により、勾配消失を軽減し、DNNの学習を改善できます。