Fase backward

Por último -y seguramente lo más complejo de todo- es recorrer nuestra red neuronal desde la salida hasta la entrada aplicando la regla de la cadena para el cálculo de las derivadas parciales de nuestra función de coste.

Vamos a implementar este código en dos bloques: en primer lugar el cálculo para los parámetros de la capa de salida y, a continuación, el cálculo para las capas ocultas.