Valle largo

La situación mostrada en la imagen anterior es un tanto rebuscada, pues, en una de las dimensiones del punto de partida, la derivada es cero. Vemos cómo el optimizador SGD (Stochastic Gradient Descent) no consigue encontrar el camino de descenso. AdaGrad y Rmsprop se muestran más lentos que el resto de los optimizadores. En NAG (Nesterov Accelerated Gradient) y Momentum la inercia aplicada hace que, tras arrancar con incrementos bajos, éstos aumenten rápidamente.

Excepto donde se indique otra cosa, los contenidos de este sitio web se ofrecen bajo una licencia Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional

Valle largo

About Interactive Chaos

Contact information