Fuente: https://imgur.com/a/Hqolp
En este segundo caso todos los optimizadores son capaces de encontrar el mínimo, aun cuando SGD se muestra mucho más lento que los demás. Momentum y NAG, debido al impulso inicial por el "momentum" tardan en encontrar la dirección del mínimo.