Stochastic Gradient Descent

El optimizador Stochastic Gradient Descent o Descenso de Gradiente Estocástico simplifica el cálculo considerando solo una muestra escogida de forma aleatoria para calcular el gradiente y, a continuación, actualizar los parámetros. Es decir, pasamos una única muestra, calculamos la función de error asociada y, a partir de esta, el gradiente y los incrementos a aplicar a cada parámetro.

Esto supone que el tiempo necesario para el cálculo es muchísimo menor, aunque el algoritmo irá moviéndose hacia el mínimo de forma menos coherente en cada iteración.

Una ventaja de esta "incoherencia" es que puede resultarle más sencillo escapar de un mínimo local.