Elección de la tasa de aprendizaje

Aun así, restar a cada parámetro la derivada parcial supone, en cualquier caso, restar una cantidad demasiado grande. Si, por ejemplo, estamos en el punto a = 10 y en dicho punto la derivada parcial con respecto al parámetro a toma el valor 7, restar al parámetro a el valor 7 supondría pasar de 10 a 3. Eso es un salto demasiado grande: no sabemos qué forma tiene nuestra función de error entre dichos valores, tal vez tenga un mínimo en el rango (3, 10) que estemos saltando. Así que lo que vamos a hacer es multiplicar las derivadas parciales por una pequeña cantidad: la tasa de aprendizaje. De esta forma nos aseguramos de que nos acercamos al mínimo de la función con la velocidad adecuada.

Si, por ejemplo, la tasa de aprendizaje vale 0.01, y la derivada parcial calculada era 7, esto supondría restar al parámetro a el valor 7 x 0.01 = 0.07. Es decir, a pasaría de valer 10 a valer 9.93. Esto sí que es un pequeño paso hacia la dirección del valor mínimo de la función. Con la variable b habría que hacer lo mismo, por supuesto. Los incrementos de a y de b quedan, por lo tanto, de la siguiente forma:

Incrementos a aplicar a los parámetros

donde μ es la tasa de aprendizaje.