Una versión de Momentum es la llamada Nesterov Accelerated Gradient (NAG). Este algoritmo añade también la "inercia" comentada, pero intenta que los incrementos disminuyan cuando el algoritmo se acerca al mínimo buscado.
La principal diferencia entre NAG y el Momentum clásico es la forma en que se calcula la dirección de actualización. En Momentum, tal y como hemos visto, se utiliza el promedio ponderado de los gradientes anteriores para calcular la dirección de actualización. En cambio, en NAG, se utiliza una aproximación de los gradientes futuros para calcular la dirección de actualización. Esta aproximación se basa en la idea de que, si se actualizan los parámetros utilizando el promedio ponderado de los gradientes anteriores, los parámetros se moverán a una posición cercana a donde estarán en la siguiente iteración. Por lo tanto, la aproximación de los gradientes futuros calcula el gradiente en esta posición futura para proporcionar una mejor estimación de la dirección de actualización.
Aun cuando este algoritmo converge, en general, más rápidamente que Momentum, su ejecución resulta más compleja debido a los cálculos involucrados.