AdaGrad

AdaGrad (Adaptative Gradient Algorithm o Algoritmo de Gradiente Adaptativo) es una modificación de Stochastic Gradient Descent en la que se utilizan diferentes tasas de aprendizaje para las variables teniendo en cuenta el gradiente acumulado en cada una de ellas. Un problema de este optimizador es que, en ocasiones, puede ocurrir que la tasa de aprendizaje para una variable decrezca demasiado rápidamente debido a la acumulación de altos valores del gradiente al comienzo del entrenamiento, lo que puede llevar a que el aprendiz no sea capaz de aproximarse al mínimo en dicha dimensión.

Puedes acceder al documento que define este optimizador aquí.