・信用割当問題
ニューラルネットワークでどのパラメータをどう修正すればよいかわからない問題
誤差逆伝播法で解決
・勾配降下法の手法
モーメンタム
NAG(Nesterov's Accelerated Gradient)
AdaGrad
RMSprop
AdaDelta
Adam
AdaBound
AMSGrad
AMSBound
・AdaGrad
パラメータhでは過去の勾配の二乗和を記録
学習の進行に応じて学習率を小さくする
・RMSprop
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決
・AdaDelta
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決
次元のずれも解消
・Adam
モーメンタム + RMSprop
・AdaBound
Adam + 学習率をクリッピング
Adam → モーメンタム
・AMSGrad
Adamの大きすぎる学習率を抑制
Adamとほぼ同程度の精度
・AMSBound
AMSGrad + 学習率をクリッピング
・二重降下現象
学習中に減少していたテストデータに対する誤差が一度増加し、再び減少する現象
・Contrastive Loss
深層距離学習の誤差関数
・Triplet Loss
深層距離学習の誤差関数
・プラトー
鞍点に陥ること
・L0正則化
0でないパラメータ個数
微分不可
計算負荷が大きい
・L1正則化
次元圧縮
ラッソ回帰
・L2正則化
過学習抑止
リッジ回帰
・バーニーおじさんのルール
理想的なモデルの学習にはパラメータ数の10倍以上のデータが必要