Stochastic Gradient Descent with Momentum o, simplemente, Momentum, recuerda el incremento aplicado a los parámetros en cada iteración y determina la siguiente actualización como una combinación lineal entre el incremento de la actual iteración y el incremento anterior. Es decir, aplica a los incrementos cierta "inercia" de forma que varíen más lentamente.