2016-12-02 2016.12.2 Factorization Machines の最適化に SGD を使っているのだが、与える学習率が悪いとパラメータが発散してしまう。適当な学習率を与えても収束するまで遅すぎる。ということで調べると AdaGrad という学習率を動的に決めてくれるという手法が発想も実装も簡単で良さそうだった。