https://yamaimo.hatenablog.jp/entry/2016/02/06/200000

昨日は多層ネットワークの学習方法について説明した。

今日は多層ネットワークの学習で必要になる、勾配計算について。

勾配の計算

まず、入力 $\boldsymbol{x} \in \mathbb{R}^{J_1}$ に対する出力 $\boldsymbol{y} \in \mathbb{R}^{J_L}$ を得るために、次のように入力層から出力層に向かって、各層の出力 $\boldsymbol{z}^{(l)} \in \mathbb{R}^{J_l}$ を順番に計算していくとする：

$l = 1$ について、 $\boldsymbol{z}^{(1)} = \boldsymbol{x}$
について、
- $u^{(l)}_j = \boldsymbol{w}^{(l)}_j {}^{\mathrm{T}} \boldsymbol{z}^{(l-1)} + b^{(l)}_j$
- $z^{(l)}_j = f^{(l)} ( u^{(l)}_j )$
$l = L$ について、 $\boldsymbol{y} = \boldsymbol{z}^{(L)}$

このとき、この入力に対する誤差の勾配 $\nabla E$ がどうなるのかを考える。

まず、出力層の重み $\boldsymbol{w}^{(L)}_j = (w^{(L)}_{j,1}, \cdots , w^{(L)}_{j, J_{L-1}} )^{\mathrm{T}}$ について偏微分を考えると、

また、出力層のバイアス $b^{(L)}_j$ についての偏微分は、バイアスを入力が常に1である重みであるとみなすと、次のようになる：

そして、中間層 $l = 2, \cdots , L -1$ の重み $\boldsymbol{w}^{(l)}_j = (w^{(l)}_{j,1}, \cdots , w^{(l)}_{j, J_{l-1}} )^{\mathrm{T}}$ について偏微分を考えると、

ここで、

なので、

となることから、

となる。

なお、中間層のバイアス $b^{(l)}_j$ についての偏微分は、出力層のときと同様に考えて、次のようになる：

ところで、途中何度も出てくる $\frac{ \partial E }{ \partial u^{(l)}_j }$ をデルタ $\delta^{(l)}_j$ で表すことにする、すなわち、

とすると、これまでの式は、次のようにまとめることが出来る：

添え字がめちゃくちゃ細くて大変だけど、地道に頑張って・・・

誤差逆伝播法

まとめた式を見てみると、デルタは次の層のデルタを使って再帰的に計算できることが分かる。
そこで、出力層から入力層に向かって順番にデルタと勾配を計算していく方法を、誤差逆伝播法という。

入力 $\boldsymbol{x}$ から、各層について $u^{(l)}_j$ と $z^{(l)}_j$ を計算する。
以下のようにして、デルタを計算する：
1. 出力層で、 $\delta^{(L)}_j = \frac{ \partial E }{ \partial u^{(L)}_j }$ を計算する。
2. 中間層で、の順番で、デルタを次のように計算する：
  - $\delta^{(l)}_j = {f^{(l)}}' ( u^{(l)}_j ) \sum_{k=1}^{J_{l+1}} \delta^{(l+1)}_k w^{(l+1)}_{k, j}$
以下のようにして、重みとバイアスに対する偏微分を計算する：
- $\frac{ \partial E }{ \partial w^{(l)}_{j, i} } = \delta^{(l)}_j z^{(l-1)}_i$
- $\frac{ \partial E }{ \partial b^{(l)}_j } = \delta^{(l)}_j$

出力層のデルタ

出力層のデルタ $\delta^{(L)}_j$ は、誤差関数 $E(\boldsymbol{w})$ に何を使うのかで変わってくる。

誤差関数として、1つの訓練サンプル $(\boldsymbol{x}, \boldsymbol{d})$ に対する二乗和誤差 $\frac12 \left\| \boldsymbol{d} - \boldsymbol{y} ( \boldsymbol{x} ; \boldsymbol{w} ) \right\|^2$ を使う場合、次のようになる：

活性化関数の導関数

デルタを計算するとき、活性化関数 $f$ の導関数 $f'$ を使っている。

それぞれに活性化関数に対する導関数は、次のようになる：

活性化関数	$f(u)$	$f'(u)$
ロジスティック関数	$\frac{1}{1 + e^{-u}}$	$f(u) \left( 1 - f(u) \right)$
双曲線正接関数	$\mathrm{tanh}(u)$	$1 - \mathrm{tanh}^2(u)$
正規化線形関数	$\mathrm{max}(u, 0)$	$\left\{ \begin{array}{l} 1 \quad (u \ge 0) \\ 0 \quad (u \lt 0) \end{array} \right.$
シグモイド関数を近似した関数	$\left\{ \begin{array}{l} -1 \quad (u \lt -1) \\ u \quad (-1 \le u \le 1) \\ 1 \quad (1 \lt u) \end{array} \right.$	$\left\{ \begin{array}{l} 1 \quad (-1 \le u \le 1) \\ 0 \quad (\mbox{otherwise}) \end{array} \right.$