以下の内容はhttps://htn20190109.hatenablog.com/entry/2026/01/31/164933より取得しました。


第4章 ディープラーニングの概要

・信用割当問題
ニューラルネットワークでどのパラメータをどう修正すればよいかわからない問題
誤差逆伝播法で解決


・勾配降下法の手法

モーメンタム
NAG(Nesterov's Accelerated Gradient)
AdaGrad
RMSprop
AdaDelta
Adam
AdaBound
AMSGrad
AMSBound

・AdaGrad
パラメータhでは過去の勾配の二乗和を記録
学習の進行に応じて学習率を小さくする

・RMSprop
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決

・AdaDelta
AdaGradで学習率が最終的に0に収束する問題を指数移動平均で解決
次元のずれも解消

・Adam
モーメンタム + RMSprop

・AdaBound
Adam + 学習率をクリッピング
Adam → モーメンタム

・AMSGrad
Adamの大きすぎる学習率を抑制
Adamとほぼ同程度の精度

・AMSBound
AMSGrad + 学習率をクリッピング

 

・二重降下現象
学習中に減少していたテストデータに対する誤差が一度増加し、再び減少する現象


・Contrastive Loss
深層距離学習の誤差関数

・Triplet Loss
深層距離学習の誤差関数

 

・プラトー
鞍点に陥ること


・L0正則化
0でないパラメータ個数
微分不可
計算負荷が大きい

・L1正則化
次元圧縮
ラッソ回帰


・L2正則化
過学習抑止
リッジ回帰

・バーニーおじさんのルール
理想的なモデルの学習にはパラメータ数の10倍以上のデータが必要




以上の内容はhttps://htn20190109.hatenablog.com/entry/2026/01/31/164933より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14