https://htn20190109.hatenablog.com/entry/2026/01/31/164933

・信用割当問題
ニューラルネットワークでどのパラメータをどう修正すればよいかわからない問題
誤差逆伝播法で解決

・勾配降下法の手法

モーメンタム
NAG(Nesterov's Accelerated Gradient)
AdaGrad
RMSprop
AdaDelta
Adam
AdaBound
AMSGrad
AMSBound

・AdaGrad
パラメータhでは過去の勾配の二乗和を記録
学習の進行に応じて学習率を小さくする

・RMSprop
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決

・AdaDelta
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決
次元のずれも解消

・Adam
モーメンタム + RMSprop

・AdaBound
Adam + 学習率をクリッピング
Adam → モーメンタム

・AMSGrad
Adamの大きすぎる学習率を抑制
Adamとほぼ同程度の精度

・AMSBound
AMSGrad + 学習率をクリッピング

・二重降下現象
学習中に減少していたテストデータに対する誤差が一度増加し、再び減少する現象

・Contrastive Loss
深層距離学習の誤差関数

・Triplet Loss
深層距離学習の誤差関数

・プラトー
鞍点に陥ること

・L0正則化
0でないパラメータ個数
微分不可
計算負荷が大きい

・L1正則化
次元圧縮
ラッソ回帰

・L2正則化
過学習抑止
リッジ回帰

・バーニーおじさんのルール
理想的なモデルの学習にはパラメータ数の10倍以上のデータが必要