Es decir, para aplicar el algoritmo de descenso de gradiente –suponiendo que la función de error depende de dos variables- podemos partir de un punto aleatorio (a, b). A continuación, calculamos el gradiente de la función de coste en dicho punto (es decir, las derivadas parciales con respecto a ambas variables), restamos a los valores de a y b sus derivadas parciales multiplicadas por la tasa de aprendizaje para asegurarnos de que los incrementos nos llevan hacia el mínimo de la función pero a una velocidad suficientemente pequeña, y repetimos el proceso hasta que el gradiente calculado sea cero (o muy pequeño), en cuyo caso estaremos en un mínimo de la función de coste (o muy próximos a él).