Ya hemos visto en secciones anteriores que, para el cálculo del gradiente de la función de error correspondiente a una muestra, es necesario pasar ésta por la red, obtener el error y, a partir de él, recorrer las capas de atrás hacia adelante calculando las derivadas parciales asociadas a cada parámetro (el gradiente de la función de error). Y que para la aplicación de la regla de la cadena necesitaremos memorizar tanto los valores zi como los valores ai.
Esto nos permite resumir el proceso completo, por lo tanto, en tres fases:
- Inicialización del gradiente (las derivadas parciales para todos los parámetros) con el valor cero
- Paso de la muestra por la red desde la capa de entrada hasta la capa de salida (fase "feedforward"), fase que aprovecharemos para calcular los valores intermedios comentados para todas las capas (los zi, y los ai)
- Cálculo de las derivadas parciales asociadas a cada parámetro recorriendo las capas desde la de salida hasta la capa de entrada (fase "backward").
Revisemos estos pasos uno por uno.