Si la función de error escogida -una vez aplicada a nuestro algoritmo- es sencilla, podemos recurrir al cálculo infinitesimal para la obtención de su valor mínimo. Esto requiere que la función cumpla ciertas condiciones (para empezar, que sea continua y derivable). Pero, en general, ni el elevado número de muestras en nuestro dataset de entrenamiento ni la función de error a utilizar van a permitir aplicar este enfoque. Como alternativa, para el cálculo de los mínimos de la función de error se va a utilizar lo que se conoce como algoritmos de optimización (también llamados optimizadores), que iterativamente ajustan los parámetros del modelo, disminuyendo el valor devuelto por la función de coste hasta que alcanzan un mínimo. Uno de los algoritmos más comunes es el denominado descenso de gradiente.